AIGC

開放 AI 希望與組織合作建立新的 AI 訓練資料集

開放 AI 宣布與外部機構合作建立新的 AI 訓練資料集資料集的問題近年來眾所周知，用於訓練人工智慧模型的資料集存在著深刻的缺陷。影象資料集傾向於以美國和西方為中心，部分是因為在編制資料集時，網際網路上的西方影象佔主導地位。最近在艾倫人工智慧研究所的一項研究中也提到，用於訓練像 Meta 的 Lla .... (往下繼續閱讀)

by 程宇肖
2023/11/10
4 分鐘閱讀時間

A- A A+

文章目錄

開放 AI 宣布與外部機構合作建立新的 AI 訓練資料集

資料集的問題

近年來眾所周知，用於訓練人工智慧模型的資料集存在著深刻的缺陷。影象資料集傾向於以美國和西方為中心，部分是因為在編制資料集時，網際網路上的西方影象佔主導地位。最近在艾倫人工智慧研究所的一項研究中也提到，用於訓練像 Meta 的 Llama 2 這樣的大型語言模型的資料包含有毒語言和偏見。模型會以有害的方式放大這些缺陷。

開放 AI 的回應

如今開放 AI 表示希望透過與外部機構合作來建立新的、更好的資料集來解決這些問題。該公司宣布了「資料夥伴關係」計劃，旨在與第三方機構合作，為人工智慧模型訓練建立公共和私有資料集。

資料夥伴關係計劃

開放 AI 表示資料夥伴關係旨在「使更多組織幫助引導未來的人工智慧」並「受益於更有用的模型」。此外該計劃的目標是建立「大規模」反映人類社會的資料集，並且在開始階段，開放 AI 希望建立兩種資料集：一個是開源資料集，供任何人在人工智慧模型訓練中使用，另一種是為訓練專有人工智慧模型而設的私有資料集。該公司正在尋找希望幫助教導人工智慧理解世界的合作夥伴。

問題與看法

然而這樣的計劃是否比以前的許多資料集建設更好，還有待觀察。資料集偏見的最小化一直是困擾世界專家的問題。至少，我們希望開放 AI 公司在這個過程中能保持透明，並坦誠面對建立這些資料集中不可避免的挑戰。

商業動機與爭議

儘管開放 AI 公司在部落格文章中使用了宏偉的措辭，但其中似乎也隱含著明顯的商業動機，即改善開放 AI 模型的效能，但這可能會對其他機構造成損害，而且未必會對資料擁有者進行任何賠償。在眾多眼球和版權訴訟出現的情況下，開放 AI 暗中使用許多模型而未經許可和報酬，這一舉措似乎有點與時代脫節。

結語

無疑，開放 AI 的資料夥伴關係計劃代表了一個大步向前的舉措，但同時也應留意需要解決的問題。我們期待開放 AI 能夠在此過程中取得成功，並帶給人工智慧領域更多的進步和發展。

Collaboration-人工智慧,開放 AI,合作,訓練資料集

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集