AIGC

科技新聞網站主編：MosaicML 推出 7B 引數、8K 內文長度的開源 LLM MPT-7B-8K

MosaicML 推出擁有 70 億引數和 8k 內文長度的開源大型語言模型（LLM）概述 MosaicML 最近推出了一個名為 MPT-7B-8K 的開源大型語言模型，它擁有 70 億個引數和一個 8k 的內文長度。據該公司稱，該模型在 MosaicML 平臺上進行了預訓練，並透過從 MPT-7B .... (往下繼續閱讀)

by 程宇肖
2023/7/20
9 分鐘閱讀時間

A- A A+

文章目錄

科技新聞網站主編：MosaicML 推出 7B 引數、8K 內文長度的開源 LLM MPT-7B-8K

MosaicML 推出擁有 70 億引數和 8k 內文長度的開源大型語言模型（LLM）

概述

MosaicML 最近推出了一個名為 MPT-7B-8K 的開源大型語言模型，它擁有 70 億個引數和一個 8k 的內文長度。據該公司稱，該模型在 MosaicML 平臺上進行了預訓練，並透過從 MPT-7B 檢查點開始的預訓練過程進行了訓練。訓練過程中使用了 Nvidia H100s，並在 256 個 H100s 上進行了三天的附加訓練，內容涵蓋了 5000 億個令牌的資料。

MosaicML 的早期成就

值得注意的是，MosaicML 以其推出的 MPT-30B 而在人工智慧（AI）社區中引起了軒然大波。這是一個開源的、經過商業許可的解碼器型 LLM，擁有 30 億個引數，相當於 GPT-3-175B 的 17%。MPT-30B 在各種任務中超越了 GPT-3 的表現，並且在相似大小的模型中證實了更高的訓練效率。例如，LLaMA-30B 所需的 FLOPs 預算約為 MPT-30B 的 1.44 倍，而 Falcon-40B 的 FLOPs 預算則比 MPT-30B 高出 1.27 倍。

MPT-7B-8K 的優勢

MosaicML 宣稱，與以往模型相比，新模型 MPT-7B-8K 在檔案摘要和問答任務上表現出色。公司表示該模型專為快速的訓練和預測最佳化，以便更快地獲得結果。此外它還允許在 MosaicML 平臺上對特定領域的資料進行微調。MosaicML 還宣布了 MPT-7B-8K 的商業使用授權，並突出了其在訓練過程中使用了包含 1.5 兆令牌的大型資料集，超過了類似模型如 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM。根據公司的說法，該模型利用了 FlashAttention 和 FasterTransformer，在快速訓練和預測方面表現出色，並可從 llm-foundry 儲存庫中獲取開源訓練程式碼。

MPT-7B-8K 的三個變體

MosaicML 釋出了三個 MPT-7B-8K 的變體：

- MPT-7B-8K-Base：這是一個基於解碼器風格的轉換器，它以 MPT-7B 為基礎進行預訓練，並進一步最佳化了 8k 的序列長度。它透過額外的 5000 億個令牌進行了附加訓練，從而獲得了包含文字和程式碼的共 1.5 兆令牌的大型語料庫。

- MPT-7B-8K-Instruct：這個模型專為長篇指導任務而設計，包括摘要和問答。它透過對精心策劃的資料集進行微調，使用 MPT-7B-8K 進行訓練。

- MPT-7B-8K-Chat：這個變體類似於一個聊天機器人模型，專注於對話生成。它透過對大約 15 億個聊天資料進行微調，使用 MPT-7B-8K 進行訓練。

與 Meta 的競爭

同時這一公告也與 Meta 公司發布 LLaMA 2 模型的訊息同時發布，該模型現在在 Microsoft Azure 上可用。與 LLaMA 1 不同，LLaMA 2 提供了多個模型大小，包括 7 億、13 億和 70 億個引數。Meta 聲稱，這些預訓練模型在一個比 LLaMA 1 更大的資料集上進行了訓練，該資料集的規模是 LLaMA 1 的兩倍，且上下文長度擴充套件到了兩萬億個令牌，是 LLaMA 1 的兩倍。根據 Meta 的測試結果，LLaMA 2 的表現優於 LLaMA 1。

這些最新的開源大型語言模型的推出再次展示了人工智慧領域的快速發展。MosaicML 的 MPT-7B-8K 以其卓越的效能和優秀的訓練效率引人注目，為研究人員和開發人員提供了一個強大的工具。同樣，Meta 的 LLaMA 2 模型在模型大小和訓練效果上的改進也是令人印象深刻的。

然而開源大型語言模型的迅速發展也引發了一些關於資料隱私和倫理方面的問題。這些模型在訓練過程中需要龐大的資料集，其中可能包含個人身份訊息等敏感訊息。因此我們需要建立嚴格的隱私保護標準，確保這些模型的使用不會侵犯人們的隱私權。

同時這些模型的龐大計算需求也給能源和環境帶來了壓力。我們應該持續努力尋找更加節能和環保的訓練方法，以減少對能源的依賴並減少碳排放。

建議

對於那些對這些開源大型語言模型感興趣的研究人員和開發人員，以下是一些建議：

- 在使用這些模型之前，要仔細閱讀相關的檔案和程式碼，確保理解並遵守所使用的模型的使用條款和條件。

- 注意隱私保護問題，在使用這些模型時，不要使用包含任何個人身份訊息的資料集，以保護使用者的隱私權。

- 確保訓練過程中使用的計算資源可持續且環保，並最佳化訓練流程以節省能源和減少碳排放。

- 不斷關注領域中的最新研究和開發，以獲取關於效能改進和更高效訓練方法的最新訊息。

最後我們應該明確認識到這些開源大型語言模型的潛力和衝擊。它們將為自然語言處理和人工智慧領域帶來持續的創新，並成為我們探索和理解人類語言的重要工具。然而我們也需要在模型的效能和效率之外，關注隱私和環境等問題，以確保其在可持續和負責任的情景下發揮最大潛力。

Technology-科技新聞,網站主編,MosaicML,7B 引數,8K 內文長度,開源,LLM,MPT-7B-

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集