開放 AI 宣布與外部機構合作建立新的 AI 訓練資料集
資料集的問題
近年來眾所周知,用於訓練人工智慧模型的資料集存在著深刻的缺陷。影象資料集傾向於以美國和西方為中心,部分是因為在編制資料集時,網際網路上的西方影象佔主導地位。最近在艾倫人工智慧研究所的一項研究中也提到,用於訓練像 Meta 的 Llama 2 這樣的大型語言模型的資料包含有毒語言和偏見。模型會以有害的方式放大這些缺陷。
開放 AI 的回應
如今開放 AI 表示希望透過與外部機構合作來建立新的、更好的資料集來解決這些問題。該公司宣布了「資料夥伴關係」計劃,旨在與第三方機構合作,為人工智慧模型訓練建立公共和私有資料集。
資料夥伴關係計劃
開放 AI 表示資料夥伴關係旨在「使更多組織幫助引導未來的人工智慧」並「受益於更有用的模型」。此外該計劃的目標是建立「大規模」反映人類社會的資料集,並且在開始階段,開放 AI 希望建立兩種資料集:一個是開源資料集,供任何人在人工智慧模型訓練中使用,另一種是為訓練專有人工智慧模型而設的私有資料集。該公司正在尋找希望幫助教導人工智慧理解世界的合作夥伴。
問題與看法
然而這樣的計劃是否比以前的許多資料集建設更好,還有待觀察。資料集偏見的最小化一直是困擾世界專家的問題。至少,我們希望開放 AI 公司在這個過程中能保持透明,並坦誠面對建立這些資料集中不可避免的挑戰。
商業動機與爭議
儘管開放 AI 公司在部落格文章中使用了宏偉的措辭,但其中似乎也隱含著明顯的商業動機,即改善開放 AI 模型的效能,但這可能會對其他機構造成損害,而且未必會對資料擁有者進行任何賠償。在眾多眼球和版權訴訟出現的情況下,開放 AI 暗中使用許多模型而未經許可和報酬,這一舉措似乎有點與時代脫節。
結語
無疑,開放 AI 的資料夥伴關係計劃代表了一個大步向前的舉措,但同時也應留意需要解決的問題。我們期待開放 AI 能夠在此過程中取得成功,並帶給人工智慧領域更多的進步和發展。
延伸閱讀
- 開放 AI (OpenAI)的 ChatGPT 新聞發布:我們當前所知道的事情
- OpenAI 考慮允許 AI 色情內容?
- AI 晶片新創 DEEPX 以 5.29 億美元估值成功籌得 8000 萬美元 C 輪融資
- Fairgen「提振」調查結果,利用合成資料和人工智慧生成的回應
- 用 Retell AI 讓公司打造「語音代理人」來應答電話
- OpenAI 揭開 AI 祕密指令的面紗
- AI 助您創辦者更快、更輕鬆地籌集資金嗎?
- 盧西德機器人獲得 900 萬美元用於無人機清潔任何地方
- 以色列新創公司 Panax 籌集了 1,000 萬美元 A 輪融資,用於其基於人工智慧的現金流管理平臺
- Reddit 測試使用基於 LLM 的人工智慧進行自動整站法語翻譯