
「ChatGPT 的『開放』替代方案如何真的是開放的 AI?」
無數開源版本的文字生成器崛起
荷蘭拉德堡大學的語言學家和語言技術研究人員團隊指出,OpenAI 的 ChatGPT 似乎無所不在,但開源版本的指導調校文字生成器正在取得上風。在短短六個月內,至少出現了 15 個可供選擇的替代方案,它們都至少有一個重要優勢:更加透明。這些研究人員主張,理解訓練資料和算法對於負責任地使用生成式人工智慧至關重要。他們將這個快速發展的領域整理成一篇論文和一個即時更新的網站。從這些研究可以看出,有許多可行的「開源」文字生成器,但同時也有不同的開放程度以及許多模型繼承了法律約束。他們對此表示謹慎樂觀。
追求開放性的重要性
領導研究人員 Andreas Liesenfeld 表示:“看到這麼多開源替代方案出現是好事。ChatGPT 如此受歡迎,以至於我們很容易忘記我們對於訓練資料或者背後使用的其他技巧一無所知。這對於希望更好地理解這些模型或基於它們構建應用程式的任何人來說都是風險。開源替代方案可以促進關鍵和基礎研究。
將 AI 保持開放的利弊
像 OpenAI 這樣的公司有時會聲稱,人工智慧必須保密,因為開放可能帶來「存在風險」,但研究人員對此觀點並不滿意。資深研究人員 Mark Dingemanse 表示:“將一切保密讓 OpenAI 隱藏了剝削性勞動方式。而所謂的存在風險的談話則轉移了人們對於當前和真實危害,如混淆、偏見輸出和海量垃圾內容,的關注。”研究人員認為,開放性使得更容易追究公司對他們所製造的模型、進入模型的資料(通常有版權)以及由模型產生的文字的責任和問責。他們的研究顯示不同的模型在開放程度上存在差異:很多模型只分享語言模型,另外一些還提供了有關訓練資料的洞察,還有一些模型還有詳盡的檔案記錄。Mark Dingemanse 表示:“就其當前的形式而言,ChatGPT 無法負責地用於研究和教學。它能夠重複口述的詞彙,但沒有對意義、文章作者或適當引用的概念。而且免費僅意味著我們正在為 OpenAI 提供免費勞動和參與我們的集體智慧。至少,透過開源模型,我們可以深入理解技術並作出理性決策。”
開放效能追蹤和透明度
新的模型每個月都會出現,所以這篇論文主要是呼籲採取行動,以系統化的方式來追蹤它們的開放性和透明度。一個相應的網站讓這一點成為可能。此外許多模型彼此借用元素,這可能導致法律上的混亂情況。例如,流行的 Falcon 40B-instruct 模型建立在一個(Baize)嚴格用於研究目的的資料集之上,但 Falcon 製作者仍然鼓勵商業用途。ChatGPT 之所以感知如此流暢,關鍵原因在於指導調校步驟(RLHF)中的人工勞動,即修剪和修整模型的輸出,使其聽起來更加溫順和具有互動性。開放的模型可以研究什麼讓人們如此易受真正互動的影響。這些研究人員將在 7 月 19 日至 21 日於荷蘭愛因霍芬舉行的國際會議上介紹他們的研究成果,並且他們的論文已經在 arXiv 預印本伺服器上提供。
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 計劃將 Sora 影片生成器整合至 ChatGPT,開啟創意新視界!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!