團隊開發更快、更便宜的大型語言模型訓練方法
作者:Katharine Miller,斯坦福大學
編者按:此文經 Science X 的編輯過程和政策審核,並符合以下可信度標準:
- 事實核查
- Trusted source
- 校對過的預印本
背景介紹:
由於包括 ChatGPT 在內以大型語言模型(LLMs)為基礎的應用越來越廣泛地被使用,也吸引了大量媒體的關注,因此在 LLM 領域,只有少數幾家大型科技公司佔據主導地位。這是因為,當前的 LLM 預訓練非常昂貴,估計起始成本為 1,000 萬美元,甚至可能增加數十倍乃至數百倍。
"對於較小的組織或學術團體來說大型語言模型並不易於獲得," 斯坦福大學電腦科學專業的研究生洪劉表示。
為理解決這個問題,劉以及他的同事們致力於改進當前 LLM 最佳化方法。結果,他們提出了一種名為 Sophia 的方法,可以將訓練時間減半。
方法最佳化:
為了更好地最佳化 LLM 的預訓練,劉和他的團隊使用了兩個技巧,即曲率估計和裁剪。
曲率估計:
為了理解他們的方法,可以將其比作工廠生產線。為了高效執行,工廠經理需要最佳化將原材料轉化為最終產品所需的步驟數量,並需要理解並適當分配每個步驟的工作量。這與 LLM 的預訓練類似,這些模型具有數百萬甚至數十億個引數,就像劉所描述的力圖達到相同目標的工廠工人一樣。這些引數的一個特性是其曲率,劉將其視為它們達到的最大可達速度,就像他們在達到預訓練 LLM 的最終目標時的工作量一樣。
然而使用現有方法估計曲率非常困難且昂貴。劉表示:"事實上它的成本比不做曲率預測的實際工作還要高昂。"因此當前最佳化 LLM 預訓練的最先進方法(如 Adam 及其變體)放棄了曲率估計步驟。
然而劉和他的團隊注意到先前使用引數化曲率估計的方法可能存在效率不高的情況:先前的研究人員在最佳化的每一步中都會更新曲率估計。斯坦福團隊想知道,是否可以減少更新次數,從而使這個過程更有效。為了測試這個想法,他們設計了 Sophia,以每 10 步左右估計一次引數的曲率。洪劉表示:"這結果非常驚人。" 這是 Sophia 的第一個優勢所在。
裁剪:
裁剪解決了另一個相關問題:不準確的曲率估計。劉表示:"如果估計錯誤,就像給那些本已負擔沉重工作的人增加了更多工作,這會使情況比根本沒有估計還要糟糕。" 裁剪透過設定閾值或最大曲率估計值,防止了這種情況的發生。"在我們的工廠比喻中,這就像為所有員工設定了工作負荷約束,"劉補充道。
Sophia 的測試和擴充套件:
洪劉和他的團隊使用 Sophia 對相對較小的 LLM 進行了預訓練,使用了與 OpenAI 的 GPT-2 相同的模型大小和配置。Sophia 的曲率估計和裁剪組合使 LLM 的預訓練最佳化可以順利進行到最低谷,並且所需步數和時間只需 Adam 的一半。洪劉表示:"Sophia 的適應性使其與 Adam 有所不同。" 由於 Adam 不能預測引數的異構曲率,因此很難處理具有異構曲率的引數。洪劉還表示這是九年來首次有人在語言模型預訓練方面實現了顯著的改進。洪劉表示:"這可能意味著訓練現實世界大型模型成本的巨大降低。" 並且隨著模型的擴充套件,Sophia 的優勢只會增加。
未來展望:
接下來,洪劉和他的團隊希望使用 Sophia 開發更大的 LLM。他還希望看到 Sophia 應用於機器學習的其他領域,如計算機視覺模型或多模態模型。洪劉表示:"將 Sophia 應用於新的領域需要一些時間和資源,但由於它是開源的,社群肯定能夠實現這一目標。"
資料來源:https://techxplore.com/news/2023-07-team-faster-cheaper-large-language.html
關鍵詞:創新、團隊開發、大型語言模型、訓練方法、快速、便宜