Meta 發布程式碼生成 AI 模型 Code Llama
簡介
在競爭激烈的生成式 AI 領域中,Meta 決定大舉開源。繼推出生成文字、語言翻譯和音訊創作的 AI 模型之後,Meta 今天開源了 Code Llama,這是一個能夠以自然語言(具體來說是英語)生成並解釋程式碼的機器學習系統。Code Llama 與 GitHub Copilot、Amazon CodeWhisperer 以及像 StarCoder、StableCode 和 PolyCoder 等開源 AI 驅動的程式碼生成器相似,可以完成程式碼補全和偵錯現有程式碼,支援多種程式設計語言,包括 Python、C ++、Java、PHP、TypeScript、C#和 Bash。
在一篇與 TechCrunch 分享的部落格文章中,Meta 寫道:“在 Meta,我們相信 AI 模型,尤其是針對編碼的大型語言模型,在創新和安全方面都受益於公開的方法。”“面向程式碼的公開可用模型可以促進改善人們生活的新技術的發展。透過發布像 Code Llama 這樣的程式碼模型,整個社區可以評估它們的功能,識別問題並修復漏洞。”
模型訓練
Code Llama 基於 Meta 本月早些時候開源的 Llama 2 文字生成模型進行了訓練。Meta 使用了與訓練 Llama 2 相同的資料集,該資料集是從網路中獲取的公開可用資料的混合。但是與其說 Code Llama 可以生成有效的程式碼,不如說它是一個基於 Llama 2 模型的子模型,更專注於學習程式碼和自然語言之間的關係。各個 Code Llama 模型的引數量從 70 億至 340 億不等,它們都是使用 5000 億級的程式碼標記和相關資料進行訓練的。Python-specific 的 Code Llama 則進一步使用了 1000 億級的 Python 程式碼進行了微調,而 instruction-understanding 的 Code Llama 則使用了人類標註者的反饋進行了微調,以生成“有用”和“安全”的答案。
潛在風險
像所有生成式 AI 一樣,程式碼生成工具也存在風險。斯坦福大學的一個研究小組發現,使用 AI 工具的工程師更有可能在其應用程式中引起安全漏洞。他們展示了這些工具常常生成在表面上看似正確但存在安全問題的程式碼,從而呼叫已被入侵的軟體並使用不安全的配置。此外智慧財產權也是一個隱患。一些程式碼生成模型(不一定包括 Code Llama)是用受版權保護的或受約束許可的程式碼進行訓練的,這些模型在特定方式下可能會重現該程式碼。法律專家指出,如果公司在生產軟體中不知不覺地納入了這些模型提供的受版權保護的建議,這可能會給公司帶來風險。此外儘管尚無大規模的證據,但開源程式碼生成工具也可能被用於製作惡意程式碼。駭客已經試圖對現有模型進行微調,用於識別程式碼中的泄露和漏洞以及撰寫詐騙網頁。
結論
儘管存在風險,Meta 在 Code Llama 的使用上幾乎沒有設限,無論是商業還是研究用途。開發人員只需承諾不將該模型用於惡意目的,如果在擁有超過 7 億月活使用者的平臺上使用(例如與 Meta 的某個社交網路競爭的平臺),則需要申請許可。Meta 在部落格文章中寫道:“Code Llama 旨在支援各個行業的軟體工程師,包括研究、工業、開源專案、非營利組織和企業等等。但我們仍然需要支援更多用例,這是我們基本和指示模型無法滿足的。我們希望 Code Llama 能激勵其他人利用 Llama 2 為研究和商業產品建立新的創新工具。”
關鍵詞:
人工智慧、程式碼生成、AI 模型、研究團隊、風險管理
延伸閱讀
- NFT 平臺 Zora 提供了一種新的賺錢方式,適合 AI 模型製作者
- 星碼大師 2:執行在大多數 GPU 上的程式碼生成人工智慧
- 史上最大的文字轉語音 AI 模型體現「新興能力」
- 研究發現:人類學家發現 AI 模型可以被訓練成欺騙者
- Google 首款搭載全新 AI 模型 Gemini 的智慧手機--Pixel 8 Pro
- Google 的 AI 聊天機器人 Bard 進行大幅升級,搭載 Google 的下一代 AI 模型 Gemini
- Google 布局生成式 AI 模型,但「Gemini」並非我們期待的模型
- 亞馬遜推出新晶片,用於訓練和執行 AI 模型
- Giskard 開源框架在將 AI 模型推向生產前進行評估
- 聚焦於 ChatGPT-like AI 模型開發的 Hugging Face 有兩人團隊