
開放 AI 宣布與外部機構合作建立新的 AI 訓練資料集
資料集的問題
近年來眾所周知,用於訓練人工智慧模型的資料集存在著深刻的缺陷。影象資料集傾向於以美國和西方為中心,部分是因為在編制資料集時,網際網路上的西方影象佔主導地位。最近在艾倫人工智慧研究所的一項研究中也提到,用於訓練像 Meta 的 Llama 2 這樣的大型語言模型的資料包含有毒語言和偏見。模型會以有害的方式放大這些缺陷。
開放 AI 的回應
如今開放 AI 表示希望透過與外部機構合作來建立新的、更好的資料集來解決這些問題。該公司宣布了「資料夥伴關係」計劃,旨在與第三方機構合作,為人工智慧模型訓練建立公共和私有資料集。
資料夥伴關係計劃
開放 AI 表示資料夥伴關係旨在「使更多組織幫助引導未來的人工智慧」並「受益於更有用的模型」。此外該計劃的目標是建立「大規模」反映人類社會的資料集,並且在開始階段,開放 AI 希望建立兩種資料集:一個是開源資料集,供任何人在人工智慧模型訓練中使用,另一種是為訓練專有人工智慧模型而設的私有資料集。該公司正在尋找希望幫助教導人工智慧理解世界的合作夥伴。
問題與看法
然而這樣的計劃是否比以前的許多資料集建設更好,還有待觀察。資料集偏見的最小化一直是困擾世界專家的問題。至少,我們希望開放 AI 公司在這個過程中能保持透明,並坦誠面對建立這些資料集中不可避免的挑戰。
商業動機與爭議
儘管開放 AI 公司在部落格文章中使用了宏偉的措辭,但其中似乎也隱含著明顯的商業動機,即改善開放 AI 模型的效能,但這可能會對其他機構造成損害,而且未必會對資料擁有者進行任何賠償。在眾多眼球和版權訴訟出現的情況下,開放 AI 暗中使用許多模型而未經許可和報酬,這一舉措似乎有點與時代脫節。
結語
無疑,開放 AI 的資料夥伴關係計劃代表了一個大步向前的舉措,但同時也應留意需要解決的問題。我們期待開放 AI 能夠在此過程中取得成功,並帶給人工智慧領域更多的進步和發展。
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!