網路議題

研究團隊發布「程式碼戰馬」 - 革命性的程式碼生成 AI 模型

Meta 發布程式碼生成 AI 模型 Code Llama 簡介在競爭激烈的生成式 AI 領域中,Meta 決定大舉開源。繼推出生成文字、語言翻譯和音訊創作的 AI 模型之後,Meta 今天開源了 Code Llama,這是一個能夠以自然語言(具體來說是英語)生成並解釋程式碼的機器學習系統。Code .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

研究團隊發布「程式碼戰馬」 - 革命性的程式碼生成 AI 模型

Meta 發布程式碼生成 AI 模型 Code Llama

簡介

在競爭激烈的生成式 AI 領域中,Meta 決定大舉開源。繼推出生成文字、語言翻譯和音訊創作的 AI 模型之後,Meta 今天開源了 Code Llama,這是一個能夠以自然語言(具體來說是英語)生成並解釋程式碼的機器學習系統。Code Llama 與 GitHub Copilot、Amazon CodeWhisperer 以及像 StarCoder、StableCode 和 PolyCoder 等開源 AI 驅動的程式碼生成器相似,可以完成程式碼補全和偵錯現有程式碼,支援多種程式設計語言,包括 Python、C ++、Java、PHP、TypeScript、C#和 Bash。

在一篇與 TechCrunch 分享的部落格文章中,Meta 寫道:“在 Meta,我們相信 AI 模型,尤其是針對編碼的大型語言模型,在創新和安全方面都受益於公開的方法。”“面向程式碼的公開可用模型可以促進改善人們生活的新技術的發展。透過發布像 Code Llama 這樣的程式碼模型,整個社區可以評估它們的功能,識別問題並修復漏洞。”

模型訓練

Code Llama 基於 Meta 本月早些時候開源的 Llama 2 文字生成模型進行了訓練。Meta 使用了與訓練 Llama 2 相同的資料集,該資料集是從網路中獲取的公開可用資料的混合。但是與其說 Code Llama 可以生成有效的程式碼,不如說它是一個基於 Llama 2 模型的子模型,更專注於學習程式碼和自然語言之間的關係。各個 Code Llama 模型的引數量從 70 億至 340 億不等,它們都是使用 5000 億級的程式碼標記和相關資料進行訓練的。Python-specific 的 Code Llama 則進一步使用了 1000 億級的 Python 程式碼進行了微調,而 instruction-understanding 的 Code Llama 則使用了人類標註者的反饋進行了微調,以生成“有用”和“安全”的答案。

潛在風險

像所有生成式 AI 一樣,程式碼生成工具也存在風險。斯坦福大學的一個研究小組發現,使用 AI 工具的工程師更有可能在其應用程式中引起安全漏洞。他們展示了這些工具常常生成在表面上看似正確但存在安全問題的程式碼,從而呼叫已被入侵的軟體並使用不安全的配置。此外智慧財產權也是一個隱患。一些程式碼生成模型(不一定包括 Code Llama)是用受版權保護的或受約束許可的程式碼進行訓練的,這些模型在特定方式下可能會重現該程式碼。法律專家指出,如果公司在生產軟體中不知不覺地納入了這些模型提供的受版權保護的建議,這可能會給公司帶來風險。此外儘管尚無大規模的證據,但開源程式碼生成工具也可能被用於製作惡意程式碼。駭客已經試圖對現有模型進行微調,用於識別程式碼中的泄露和漏洞以及撰寫詐騙網頁。

結論

儘管存在風險,Meta 在 Code Llama 的使用上幾乎沒有設限,無論是商業還是研究用途。開發人員只需承諾不將該模型用於惡意目的,如果在擁有超過 7 億月活使用者的平臺上使用(例如與 Meta 的某個社交網路競爭的平臺),則需要申請許可。Meta 在部落格文章中寫道:“Code Llama 旨在支援各個行業的軟體工程師,包括研究、工業、開源專案、非營利組織和企業等等。但我們仍然需要支援更多用例,這是我們基本和指示模型無法滿足的。我們希望 Code Llama 能激勵其他人利用 Llama 2 為研究和商業產品建立新的創新工具。”

關鍵詞:

人工智慧、程式碼生成、AI 模型、研究團隊、風險管理

AIprogramming-程式碼生成、AI 模型、研究團隊、程式碼戰馬
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。