開放 AI 宣布與外部機構合作建立新的 AI 訓練資料集
資料集的問題
近年來眾所周知,用於訓練人工智慧模型的資料集存在著深刻的缺陷。影象資料集傾向於以美國和西方為中心,部分是因為在編制資料集時,網際網路上的西方影象佔主導地位。最近在艾倫人工智慧研究所的一項研究中也提到,用於訓練像 Meta 的 Llama 2 這樣的大型語言模型的資料包含有毒語言和偏見。模型會以有害的方式放大這些缺陷。
開放 AI 的回應
如今開放 AI 表示希望透過與外部機構合作來建立新的、更好的資料集來解決這些問題。該公司宣布了「資料夥伴關係」計劃,旨在與第三方機構合作,為人工智慧模型訓練建立公共和私有資料集。
資料夥伴關係計劃
開放 AI 表示資料夥伴關係旨在「使更多組織幫助引導未來的人工智慧」並「受益於更有用的模型」。此外該計劃的目標是建立「大規模」反映人類社會的資料集,並且在開始階段,開放 AI 希望建立兩種資料集:一個是開源資料集,供任何人在人工智慧模型訓練中使用,另一種是為訓練專有人工智慧模型而設的私有資料集。該公司正在尋找希望幫助教導人工智慧理解世界的合作夥伴。
問題與看法
然而這樣的計劃是否比以前的許多資料集建設更好,還有待觀察。資料集偏見的最小化一直是困擾世界專家的問題。至少,我們希望開放 AI 公司在這個過程中能保持透明,並坦誠面對建立這些資料集中不可避免的挑戰。
商業動機與爭議
儘管開放 AI 公司在部落格文章中使用了宏偉的措辭,但其中似乎也隱含著明顯的商業動機,即改善開放 AI 模型的效能,但這可能會對其他機構造成損害,而且未必會對資料擁有者進行任何賠償。在眾多眼球和版權訴訟出現的情況下,開放 AI 暗中使用許多模型而未經許可和報酬,這一舉措似乎有點與時代脫節。
結語
無疑,開放 AI 的資料夥伴關係計劃代表了一個大步向前的舉措,但同時也應留意需要解決的問題。我們期待開放 AI 能夠在此過程中取得成功,並帶給人工智慧領域更多的進步和發展。
延伸閱讀
- 元 AI 測試:未能彰顯自身價值,但免費就是免費
- IBM-HashiCorp 聯手可能比想像中更複雜
- Google 推出新功能“口語練習”,利用人工智慧幫助使用者提高英文能力
- 科技巨頭 xAI 競爭開放人工智慧,吸金 60 億美元。推動社交網路 X 成為股東
- Xaira:AI 藥物發現新創公司以 10 億美元巨額啟動,宣稱已準備好開展藥物開發
- Rabbit 宣布推出一個迷人的小型 AI 裝置:R1
- Perplexity AI 可能價值高達 30 億美元,原因在於…
- 基於人工智慧時代,Anon 正在打造自動化認證層 - 技術新聞
- Snowflake 推出自家旗艦生成式人工智慧模型
- Parloa 完成 6600 萬美元融資,打造客服對話人工智慧平臺