網路議題

MIT 研究人員開發了能夠超越更大對手的自學習語言模型

MIT 研究:自學習語言模型的突破麻省理工學院電腦科學和人工智慧實驗室(CSAIL)的研究人員在大型語言模型(LLMs)領域的語言建模方面取得了突破性進展。MIT 的團隊創造了一種創新方法,挑戰了較小的語言模型功能有限的傳統信念。這項研究引入了一種可擴充套件的、自學習的模型,使其在特定語言理解任務中超 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

MIT 研究人員開發了能夠超越更大對手的自學習語言模型

MIT 研究:自學習語言模型的突破

麻省理工學院電腦科學和人工智慧實驗室(CSAIL)的研究人員在大型語言模型(LLMs)領域的語言建模方面取得了突破性進展。MIT 的團隊創造了一種創新方法,挑戰了較小的語言模型功能有限的傳統信念。這項研究引入了一種可擴充套件的、自學習的模型,使其在特定語言理解任務中超過較大對手多達 500 倍,且無需依賴人工生成的注釋。CSAIL 研究團隊所開發的算法名爲“Simple Pseudo-Label Editing”(SimPLE),利用自我訓練的技術,讓模型能夠從自己的預測中學習,因此無需額外的標注訓練資料。研究人員聲稱,這種創新方法顯着提高了模型在各種任務中的表現,超過了 Google 的 LaMDA、FLAN 和其他 GPT 模型。

語言生成的革命(但範圍有限)

MIT 研究團隊在其論文 Entailment as Robust Self-Learners 中提出了一個觀點:盡管近年來在 LLMs 中的語言生成方面取得突破性進展,但這些模型在理解任務方面存在明顯的局限性。MIT CSAIL 博士後研究員兼研究領導作者 Hongyin Luo 在接受 VentureBeat 採訪時表示:“在算術方面,數位計算器比 GPT-4 更好,因爲它們是基於算術原則設計的。我們的小模型是針對語言理解的核心原則——語境蘊涵——進行訓練的,而 LLMs 並不明確學習這一點。在明確學習語境蘊涵的目標下,我們模型的引數效率比 LLMs 高得多,從而在 NLU 任務上表現良好。”該研究還指出,一個有能力理解語境蘊涵的模型也必須成爲出色的自然語言理解(NLU)模型。此外 CSAIL 團隊認爲,這項研究的影響超出了僅僅提高效能的範疇,它挑戰了更大的模型天生優越的傳統理念,突顯了更小的模型作爲同樣強大且環保的替代方案的潛力。

透過語境蘊涵加固語言模型理解

MIT CSAIL 團隊專注於使用語境蘊涵來增強模型對不同語言任務的理解力。文字蘊涵表示兩個句子之間的聯系,如果一個句子(前提)是真實的,那麼另一個句子(假說)也很可能是真實的。透過使用能夠識別這些關系的模型來訓練模型,研究人員能夠生成用於評估在各種任務中給定句子或短語是否包含特定訊息的提示。這種零樣本適應性顯著提高了模型的多功能性和適應性。MIT 的 Luo 告訴 VentureBeat,盡管 LLMs 在生成語言、藝術和程式碼方面展示了令人印象深刻的能力,但在處理敏感資料時它們帶來了相當大的計算成本和隱私風險。相反,較小的模型在多工和弱監督任務方面歷史上一直落後於它們的較大對手。爲解決這些挑戰,MIT CSAIL 研究人員採用了一組自然語言基礎的邏輯推斷資料集,開發了比較大的模型表現更好的較小模型。此外透過結合文字蘊涵的概念,研究人員還賦予了這些模型理解廣泛任務的能力。

自我訓練並無需額外訓練

這些模型經過訓練,可以確保給定的句子或短語中是否包含特定訊息,從而使它們能夠適應各種任務,而無需額外的訓練。洛說:“自我訓練的好處在於模型可以自動標注大量資料(建立僞標籤),但風險在於僞標籤包含錯誤預測,可能會誤導模型或導致過度擬合。”“我們的 SimPLE 方法勝過所有自我訓練基線。這個方法結合了兩種經典的 AI 策略——不確保性估計和投票,並提供了更準確的預測。”洛解釋說,傳統上,語言模型訓練需要人爲地進行資料注釋或利用 LLM API。然而人類標注員經常會標注敏感資料,從而影響隱私。此外將資料傳輸給第三方標注員或 OpenAI 的 API 可能會導致高度敏感訊息的意外曝露。“我們的方法允許在不檢視資料的情況下進行資料注釋,” 他解釋道。“標注員只需要編寫描述任務的模板。使用此模板,我們的系統預測響應和問題之間的關系,生成高質量的標籤。這樣一來,資料集標記完成,同時不與標注員共享任何資料。”

透過自我訓練重新定義 AI 模型開發

MIT研究團隊聲稱,這組較小的模型集合在各種 AI 任務方面體現了多樣化的能力,包括情感分類和新聞分類,並顯示出在識別兩個文字元件之間的聯系方面的卓越能力。模型還可以從語句中推斷情感,根據內容確保新聞文章的主題。研究人員透過將各種自然語言理解任務重新定義爲蘊涵任務實現了顯着的結果。根據洛的說法,包含 3.5 億引數的自我訓練蘊涵模型比擁有 137 至 1750 億引數的受監督語言模型表現更好。他堅信,這項開創性工作有可能重新定義 AI 和 ML 領域,提供一種更具可擴充套件性、可靠性和經濟性的語言建模解決方案。“該模型的核心在於預測蘊含關系,而 LLMs 則預測“如何使事物讀起來類似於訓練資料。”洛補充說。“這使得我們的模型更適合和高效地理解語言。與 LLMs 和傳統的基於 BERT 的模型相比,我們的模型表現更好,而且是透過自我訓練獲得的,無需人類生成的標籤。”

這項研究的論文由 Luo、James Glass 和 Yoon Kim 撰寫,定於 7 月在加拿大多倫多的計算語言學協會會議上發表。該專案得到香港創新 AI 計劃的支援。透過創新性的方法,這項研究力求爲未來的人工智慧技術奠定基礎,以優先考慮可擴充套件性、隱私保護和可持續性。洛說,與 GPT-3-175B 相比,該模型僅包含其 1/500 的引數,使其部署更加容易且推理速度更快。透過這項研究,CSAIL 團隊強調組織現在可以透過這些研究部分同時運用聰明,穩健的多工模型,無需犧牲資料隱私或依賴昂貴的計算資源。

Language Model-自學習,語言模型,MIT,研究,大對手,超越
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。