「ChatGPT 的『開放』替代方案如何真的是開放的 AI?」
無數開源版本的文字生成器崛起
荷蘭拉德堡大學的語言學家和語言技術研究人員團隊指出,OpenAI 的 ChatGPT 似乎無所不在,但開源版本的指導調校文字生成器正在取得上風。在短短六個月內,至少出現了 15 個可供選擇的替代方案,它們都至少有一個重要優勢:更加透明。這些研究人員主張,理解訓練資料和算法對於負責任地使用生成式人工智慧至關重要。他們將這個快速發展的領域整理成一篇論文和一個即時更新的網站。從這些研究可以看出,有許多可行的「開源」文字生成器,但同時也有不同的開放程度以及許多模型繼承了法律約束。他們對此表示謹慎樂觀。
追求開放性的重要性
領導研究人員 Andreas Liesenfeld 表示:“看到這麼多開源替代方案出現是好事。ChatGPT 如此受歡迎,以至於我們很容易忘記我們對於訓練資料或者背後使用的其他技巧一無所知。這對於希望更好地理解這些模型或基於它們構建應用程式的任何人來說都是風險。開源替代方案可以促進關鍵和基礎研究。
將 AI 保持開放的利弊
像 OpenAI 這樣的公司有時會聲稱,人工智慧必須保密,因為開放可能帶來「存在風險」,但研究人員對此觀點並不滿意。資深研究人員 Mark Dingemanse 表示:“將一切保密讓 OpenAI 隱藏了剝削性勞動方式。而所謂的存在風險的談話則轉移了人們對於當前和真實危害,如混淆、偏見輸出和海量垃圾內容,的關注。”研究人員認為,開放性使得更容易追究公司對他們所製造的模型、進入模型的資料(通常有版權)以及由模型產生的文字的責任和問責。他們的研究顯示不同的模型在開放程度上存在差異:很多模型只分享語言模型,另外一些還提供了有關訓練資料的洞察,還有一些模型還有詳盡的檔案記錄。Mark Dingemanse 表示:“就其當前的形式而言,ChatGPT 無法負責地用於研究和教學。它能夠重複口述的詞彙,但沒有對意義、文章作者或適當引用的概念。而且免費僅意味著我們正在為 OpenAI 提供免費勞動和參與我們的集體智慧。至少,透過開源模型,我們可以深入理解技術並作出理性決策。”
開放效能追蹤和透明度
新的模型每個月都會出現,所以這篇論文主要是呼籲採取行動,以系統化的方式來追蹤它們的開放性和透明度。一個相應的網站讓這一點成為可能。此外許多模型彼此借用元素,這可能導致法律上的混亂情況。例如,流行的 Falcon 40B-instruct 模型建立在一個(Baize)嚴格用於研究目的的資料集之上,但 Falcon 製作者仍然鼓勵商業用途。ChatGPT 之所以感知如此流暢,關鍵原因在於指導調校步驟(RLHF)中的人工勞動,即修剪和修整模型的輸出,使其聽起來更加溫順和具有互動性。開放的模型可以研究什麼讓人們如此易受真正互動的影響。這些研究人員將在 7 月 19 日至 21 日於荷蘭愛因霍芬舉行的國際會議上介紹他們的研究成果,並且他們的論文已經在 arXiv 預印本伺服器上提供。
延伸閱讀
- 在人工智慧電影節上,人性戰勝科技
- AI 推動社會變革,女性呈現關鍵力量
- Anthropic 的 Claude 在 iOS 平臺上的推出獲得微弱反韇,與 ChatGPT 的首次亮相相比
- 開放 AI (OpenAI)的 ChatGPT 新聞發布:我們當前所知道的事情
- OpenAI 考慮允許 AI 色情內容?
- AI 晶片新創 DEEPX 以 5.29 億美元估值成功籌得 8000 萬美元 C 輪融資
- Fairgen「提振」調查結果,利用合成資料和人工智慧生成的回應
- 用 Retell AI 讓公司打造「語音代理人」來應答電話
- OpenAI 揭開 AI 祕密指令的面紗
- AI 助您創辦者更快、更輕鬆地籌集資金嗎?