市場觀察

亞瑟推出 Bench:一個開源的 AI 模型評估器!

亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能位於舊金山的人工智慧新創公司亞瑟(Arthur)宣布推出 Arthur Bench,這是一個開源工具,用於評估和比較像 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 LLaMA 2 等大型語言模型(LLM)的效能。亞瑟 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

亞瑟推出 Bench:一個開源的 AI 模型評估器!

亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能

位於舊金山的人工智慧新創公司亞瑟(Arthur)宣布推出 Arthur Bench,這是一個開源工具,用於評估和比較像 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 LLaMA 2 等大型語言模型(LLM)的效能。亞瑟的共同創辦人兼執行長亞當·溫切爾在新聞稿宣告中表示:"透過 Bench,我們建立了一個開源工具,幫助團隊深入理解 LLM 提供者之間的差異、不同的提示和增強策略以及自定義的訓練方法。"

Arthur Bench 的執行方式

Arthur Bench 允許企業在其特定用例上測試不同語言模型的效能。它提供了比較模型的準確性、可讀性、避險和其他標準的指標。對於那些使用了 LLMs 多次的人來說"避險"是一個非常明顯的問題。這是指 LLM 提供多餘的語言,總結或暗示其服務條款或程式設計約束,例如說"作為一個 AI 語言模型...",這通常與使用者所期望的回應無關。

Arthur <em>Bench</em> 比較各種 LLM 回應中的避險傾向(在下方表格中顯示)
Arthur Bench 比較各種 LLM 回應中的避險傾向(在下方表格中顯示)- 圖片來源:Arthur

亞瑟已經包括了一些起始標準,用於比較 LLM 的效能,但因為該工具是開源的,使用它的企業可以新增自己的標準以滿足其需求。溫切爾解釋說:"您可以選取使用者最近提問的 100 個問題,並使用所有模型來對比回答。然後,Arthur Bench 將突出顯示回答存在明顯差異的地方,以便您可以手動審查這些。"其目標是幫助企業在採用人工智慧技術時做出明智的決策。Arthur Bench 加速了基準測試並將學術評估轉化為真實商業影響力。該公司使用了統計指標和分數的結合以及對其他 LLMs 的評估,以並列方式評分所需 LLMs 的回應。

Arthur Bench 的應用案例

溫切爾表示金融服務公司已經使用 Arthur Bench 來更快地生成投資論點和分析。汽車製造商利用 Arthur Bench 將其裝置手冊轉化為能夠快速且準確地回答客戶查詢的 LLMs,同時減少誤導性回應。另一個客戶 Axios HQ(一家企業媒體和出版平臺)在產品開發方面也使用了 Arthur Bench。Axios HQ 的資料科學家 Priyanka Oberoi 表示:"Arthur Bench 幫助我們建立了一個內部框架,以在各個功能之間進行 LLM 評估的擴充套件和標準化,並以有意義且易於理解的指標描述效能。"

亞瑟Bench 設為開源工具,以便任何人都可以免費使用和貢獻。該新創公司堅信開源方法能夠產生最優秀的產品。但他們仍然可以透過團隊儀表板來實現商業化機會。此外亞瑟還與 Amazon Web Services(AWS)和 Cohere 合作舉辦駭客松,以鼓勵開發者為 Arthur Bench 建立新的度量標準。溫切爾表示 AWS 的 Bedrock 環境選擇和部署各種 LLMs 的方式與 Arthur Bench"在哲學上非常一致"。他說:"你如何理性地決定哪些 LLM 適合你?這非常符合 AWS 的策略。"亞瑟今年早些時候推出了 Arthur Shield,用於監測大型語言模型的錯覺和其他問題。

關鍵詞:開源亞瑟Bench、人工智慧、模型評估器

OpenSource-亞瑟,Bench,開源,AI,模型評估器
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。