市場觀察

亞瑟推出 Bench：一個開源的 AI 模型評估器！

亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能位於舊金山的人工智慧新創公司亞瑟（Arthur）宣布推出 Arthur Bench，這是一個開源工具，用於評估和比較像 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 LLaMA 2 等大型語言模型（LLM）的效能。亞瑟 .... (往下繼續閱讀)

by 程宇肖
2023/8/17
7.5 分鐘閱讀時間

A- A A+

文章目錄

亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能

位於舊金山的人工智慧新創公司亞瑟（Arthur）宣布推出 Arthur Bench，這是一個開源工具，用於評估和比較像 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 LLaMA 2 等大型語言模型（LLM）的效能。亞瑟的共同創辦人兼執行長亞當·溫切爾在新聞稿宣告中表示："透過 Bench，我們建立了一個開源工具，幫助團隊深入理解 LLM 提供者之間的差異、不同的提示和增強策略以及自定義的訓練方法。"

Arthur Bench 的執行方式

Arthur Bench 允許企業在其特定用例上測試不同語言模型的效能。它提供了比較模型的準確性、可讀性、避險和其他標準的指標。對於那些使用了 LLMs 多次的人來說"避險"是一個非常明顯的問題。這是指 LLM 提供多餘的語言，總結或暗示其服務條款或程式設計約束，例如說"作為一個 AI 語言模型..."，這通常與使用者所期望的回應無關。

Arthur <em>Bench</em> 比較各種 LLM 回應中的避險傾向（在下方表格中顯示） — Arthur Bench 比較各種 LLM 回應中的避險傾向（在下方表格中顯示）- 圖片來源：Arthur

亞瑟已經包括了一些起始標準，用於比較 LLM 的效能，但因為該工具是開源的，使用它的企業可以新增自己的標準以滿足其需求。溫切爾解釋說："您可以選取使用者最近提問的 100 個問題，並使用所有模型來對比回答。然後，Arthur Bench 將突出顯示回答存在明顯差異的地方，以便您可以手動審查這些。"其目標是幫助企業在採用人工智慧技術時做出明智的決策。Arthur Bench 加速了基準測試並將學術評估轉化為真實商業影響力。該公司使用了統計指標和分數的結合以及對其他 LLMs 的評估，以並列方式評分所需 LLMs 的回應。

Arthur Bench 的應用案例

溫切爾表示金融服務公司已經使用 Arthur Bench 來更快地生成投資論點和分析。汽車製造商利用 Arthur Bench 將其裝置手冊轉化為能夠快速且準確地回答客戶查詢的 LLMs，同時減少誤導性回應。另一個客戶 Axios HQ（一家企業媒體和出版平臺）在產品開發方面也使用了 Arthur Bench。Axios HQ 的資料科學家 Priyanka Oberoi 表示："Arthur Bench 幫助我們建立了一個內部框架，以在各個功能之間進行 LLM 評估的擴充套件和標準化，並以有意義且易於理解的指標描述效能。"

亞瑟將 Bench 設為開源工具，以便任何人都可以免費使用和貢獻。該新創公司堅信開源方法能夠產生最優秀的產品。但他們仍然可以透過團隊儀表板來實現商業化機會。此外亞瑟還與 Amazon Web Services（AWS）和 Cohere 合作舉辦駭客松，以鼓勵開發者為 Arthur Bench 建立新的度量標準。溫切爾表示 AWS 的 Bedrock 環境選擇和部署各種 LLMs 的方式與 Arthur Bench"在哲學上非常一致"。他說："你如何理性地決定哪些 LLM 適合你？這非常符合 AWS 的策略。"亞瑟今年早些時候推出了 Arthur Shield，用於監測大型語言模型的錯覺和其他問題。

OpenSource-亞瑟,Bench,開源,AI,模型評估器

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集

亞瑟推出 Bench：一個開源的 AI 模型評估器！

文章目錄

亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能

Arthur Bench 的執行方式

Arthur Bench 的應用案例

延伸閱讀

修復性強的諾基亞手機計劃登陸美國

網站創辦人最應該知道的 7 個關於 CTO 的重要事項

程宇肖