
人工智慧模型如何自我學習新事物
簡介
自然語言處理模型(NLP)如 OpenAI 的 GPT 模型系列和 Google 的 Bard 一直以來都取得了巨大的成功,但是它們的內部執行方式,即使對於開發人員來說仍然是一個謎。然而 ETH 和 Google 的研究人員揭示了這些模型能夠根據與使用者的互動來學習和微調答案的潛在關鍵機制。這項研究將在七月底的機器學習國際大會(ICML)上發表,當前已經在 arXiv 預印伺服器上公開。
轉換器是什麼,為什麼在現代人工智慧中如此普遍?
轉換器是一種特定的人工神經網路架構,例如大型語言模型如 ChatGPT 中使用的轉換器,但是在 2017 年由 Google 的研究人員引入後,它在語言翻譯方面表現出色,成為焦點的一部分。有趣的是,這種架構的稍加修改早在 1991 年就已經由人工智慧先驅 Jürgen Schmidhuber 開發出來。與以往的人工智慧模型相比,轉換器的一個關鍵方面是它似乎能夠在任何型別的任務上表現出色。由於轉換器的廣泛應用,理解其工作方式變得非常重要。
研究發現了什麼?
傳統上,人們普遍認為神經網路是黑盒子,只會在給定輸入後輸出結果。然而我們的研究表明,轉換器可以自主學習,在其架構內實現算法。我們能夠證實,它們可以實現一種經典且強大的機器學習算法,該算法透過從最近接收到的訊息中學習。
可以舉個學習情景的例子嗎?
舉個例子,你可以讓語言模型讀取幾個文字以及與每個文字相聯動的情感(正面或負面)。然後,你可以讓模型閱讀一個之前沒有看過的文字,它會根據你提供的示例預測該文字是正面還是負面。所以你可以說這個模型教會了自己一種學習新事物的技巧。
這些模型只接收文字輸入,你能描述一下轉換器如何利用這個最少的訊息來最佳化輸出嗎?
實現這一點的一種方式(本文亦展示了這種可能性)是學習一種被稱為世界模型的模型,該模型使你能夠進行預測。有趣的是,這種學習過程發生在已經訓練過的轉換器內部。通常學習意味著改變模型神經網路中的存取,但我們的研究表明,轉換器模型在其固定的神經架構內部可以模擬同樣的學習過程。
轉換器如何產生這種能力?
我們在研究中假設,轉換器架構對於學習具有一種帶有偏見的能力。這意味著在轉換器基本設計中,它已經內含了發展這些學習機制的能力,即使在模型訓練之前。
GPT-3 模型有 1750 億個引數,你如何研究這樣的大型系統?
有不同的方法來理解這些系統。一些研究人員採取心理學方法,分析模型在標準化測試或道德困境等衝突情況下的反應。我們以神經科學的方式對這個系統進行了研究。類比神經科學,我們能夠記錄模型神經網路中的每個神經元和存取,這在研究動物或人類的生物大腦時是不可想像的。當前只有在研究特定現象與相對較小的架構時,才有可能在個別神經元的水平上研究這些系統。
關於你的研究論文中使用的系統,是否可以提供更多訊息?
我們在研究中使用的轉換器基本上與常用的轉換器架構相同。我們沒有使用網路上的所有文字進行訓練,而是使用了簡單問題的例子,即線性回歸問題的範例。由於這個問題及其解決方案被廣泛理解,我們能夠將已知的解決方案與轉換器的內部觀察結果進行比較。我們確認它在自身內實現了一個被稱為梯度下降的非常著名和強大的學習算法。
你是否期待模型還能出現全新的電腦科學行為?
這是有可能的。在我們的研究中,我們能夠表明轉換器不僅僅執行普通的梯度下降,而是改進了它的版本。麻省理工學院和加州大學伯克利分校的兩項獨立研究現在已經分析了轉換器學到的算法。這項研究的一個長期目標可能是確保轉換器是否可以發現算法,甚至證實我們尚未熟悉的定理,這將是真正卓越和開創性的。
評論與建議
該研究揭示了人工智慧模型自我學習新事物的潛在機制,這對於我們理解和開發更智慧的 AI 模型至關重要。透過在轉換器內部實現算法和學習機制,模型能夠在與使用者的互動中不斷改進自己的能力,這種能力被稱為上下文學習。
然而該研究還面臨一些挑戰和約束。首先轉換器需要龐大的計算資源和資料集來進行有效的訓練。這使得研究和開發更大型的模型變得困難和昂貴。其次轉換器的黑盒特性約束了我們對其內部工作過程的理解。儘管研究人員能夠觀察和分析模型的行為,但仍然無法完全解釋模型的各個方面。
考慮到這些挑戰,未來的研究應該專注於解釋轉換器的內部機制並開發更具可解釋性的模型。同時我們還需要關注模型的應用和潛在風險。由於轉換器能夠在互動中學習和微調答案,這引發了一些對於隱私和倫理的重要問題,例如如何確保模型不會被濫用或不當使用。
對於那些使用人工智慧模型的開發人員和使用者來說理解轉換器的工作原理和學習能力至關重要。開發人員應該優先考慮模型的可解釋性和透明度,以確保模型的行為是可預測和可靠的。使用者應該對模型的能力和約束有清晰的認識,並注意在使用模型時保護自身的隱私和資料安全。
結論
透過研究轉換器的學習能力,我們能夠揭示人工智慧模型如何自我學習新事物。這項研究對於我們深入理解 AI 模型的內在執行機制非常重要,同時也提出了一些重要的考慮因素,如模型的可解釋性、隱私和倫理問題。未來的研究應該專注於解釋模型的內部機制、開發可解釋性的模型以及確保模型的行為可靠並保護使用者的隱私和資料安全。
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!