網路議題

遇見 LLEMMA:超越競爭對手的數學專注開源 AI

開源 AI 模型 LLEMMA:數學問題的新方向介紹近期,針對數學問題的大型語言模型(LLM)LLEMMA 在一篇新的論文中被介紹,並由來自各大學和 Eleuther AI 等公司的研究人員共同開發。LLEMMA 在效能上超越了其他領先的數學專注語言模型,包括 Google 的 Minerva,為進 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

遇見 LLEMMA:超越競爭對手的數學專注開源 AI

開源 AI 模型 LLEMMA:數學問題的新方向

介紹

近期,針對數學問題的大型語言模型(LLM)LLEMMA 在一篇新的論文中被介紹,並由來自各大學和 Eleuther AI 等公司的研究人員共同開發。LLEMMA 在效能上超越了其他領先的數學專注語言模型,包括 Google 的 Minerva,為進一步的研究提供了一個堅實的平臺。雖然 LLEMMA 並非完美的數學求解器,但它代表了專業化的大型語言模型發展中的重大進步,並且可以推動 AI 研究朝著新的方向發展。

最先進的數學模型

LLEMMA 是建立在 Code Llama 上的,Code Llama 是 Meta 的開源 Llama 2 模型在程式碼專注資料集上微調的版本。研究人員開發了兩個版本的模型,一個是 70 億引數,另一個是 340 億引數。之後,這些模型在 Proof-Pile-2 上進行了進一步的微調,Proof-Pile-2 是研究人員建立的資料集,包含了一些科學論文、數學相關的網路資料和數學程式碼。在研究中,研究人員發現 LLEMMA 在數學基準測試中表現優越,超越了所有已知的開源模型。此外 LLEMMA 還可以使用工具和證實形式的定理來解決數學問題,而不需要進行其他的特定任務的微調。

為進一步研究提供工具

儘管 Google 的 Minerva 等幾個大型語言模型已經為數學進行了微調,但它們並不是開源的。相比之下,LLEMMA 透過在“等引數基礎上”超越了 Minerva。這意味著 LLEMMA-7B 的效能優於 Minerva-8B,而 LLEMMA-34B 則幾乎與 Minerva-62B 相當。研究人員已經釋放了所有相關資源,包括 70 億和 340 億引數的模型,Proof-Pile-2 資料集以及複製實驗的程式碼。Proof-Pile-2 包含了數學相關的程式碼資料集 AlgebraicStack,總共有 110 億個程式碼標記。根據研究人員的說法,LLEMMA 是第一個與最先進的封閉原始碼模型相匹配的開源模型,這讓其他研究人員可以在此基礎上進行擴充套件和改進。

數學專注語言模型的廣泛影響

LLEMMA 是一個廣泛領域的 LLM 發展計劃的一部分,旨在開發專注於特定領域而非多工的通用模型。LLEMMA 模型顯示出,透過改進資料和擴大資料集,甚至較小的模型也可以產生顯著的結果。例如,LLEMMA-7B 在幾乎所有的數學推理資料集上都優於 Code Llama-34B 模型。研究人員指出,“專業化的領域語言模型在給定的計算成本下,可以提供更出色的能力,或在給定能力水平下,降低計算成本。”這與其他研究一致,表明小型模型在訓練在高質量示例組成的非常大型資料集時仍然可以持續改進。

然而衡量語言模型在解決數學問題方面的推理能力是一個極其困難的任務。通常,模型之所以在數學基準測試中表現出色,是因為訓練資料中包含了測試示例,從而使得模型可以記住答案。也有研究顯示當以稍微不同的方式描述同一個問題時,LLM 可能會給出不同的答案。有科學家認為,由於 LLM 具有隨機性的特點,因此它們在數學方面並不適用。然而 LLEMMA 的開發者經過細致的取證,確保基準示例並未包含在訓練資料中。盡管在訓練和測試資料中找到了相似的示例,但他們得出的結論是“測試示例和訓練檔案之間的非微不足道的匹配並不意味著模型生成了記住的正確答案。”

結論

LLEMMA 的成就,尤其是模型和程式碼的釋放,可以增強語言模型的推理能力和規劃能力,並可為其他領域提供專門化的 LLM 基礎。這些研究人員認為,“具有強大數學推理能力的語言模型是一系列研究主題的基礎,例如獎勵建模、強化學習領域的推理以及算法推理。”正如他們所說,LLEMMA 可能會激發出哪些研究,這是一個有趣的觀察點。

Mathematics-數學專注、開源 AI、競爭對手、LLEMMA
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。