
亞瑟推出開源工具「Arthur Bench」用於評估語言模型效能
位於舊金山的人工智慧新創公司亞瑟(Arthur)宣布推出 Arthur Bench,這是一個開源工具,用於評估和比較像 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 LLaMA 2 等大型語言模型(LLM)的效能。亞瑟的共同創辦人兼執行長亞當·溫切爾在新聞稿宣告中表示:"透過 Bench,我們建立了一個開源工具,幫助團隊深入理解 LLM 提供者之間的差異、不同的提示和增強策略以及自定義的訓練方法。"
Arthur Bench 的執行方式
Arthur Bench 允許企業在其特定用例上測試不同語言模型的效能。它提供了比較模型的準確性、可讀性、避險和其他標準的指標。對於那些使用了 LLMs 多次的人來說"避險"是一個非常明顯的問題。這是指 LLM 提供多餘的語言,總結或暗示其服務條款或程式設計約束,例如說"作為一個 AI 語言模型...",這通常與使用者所期望的回應無關。
亞瑟已經包括了一些起始標準,用於比較 LLM 的效能,但因為該工具是開源的,使用它的企業可以新增自己的標準以滿足其需求。溫切爾解釋說:"您可以選取使用者最近提問的 100 個問題,並使用所有模型來對比回答。然後,Arthur Bench 將突出顯示回答存在明顯差異的地方,以便您可以手動審查這些。"其目標是幫助企業在採用人工智慧技術時做出明智的決策。Arthur Bench 加速了基準測試並將學術評估轉化為真實商業影響力。該公司使用了統計指標和分數的結合以及對其他 LLMs 的評估,以並列方式評分所需 LLMs 的回應。
Arthur Bench 的應用案例
溫切爾表示金融服務公司已經使用 Arthur Bench 來更快地生成投資論點和分析。汽車製造商利用 Arthur Bench 將其裝置手冊轉化為能夠快速且準確地回答客戶查詢的 LLMs,同時減少誤導性回應。另一個客戶 Axios HQ(一家企業媒體和出版平臺)在產品開發方面也使用了 Arthur Bench。Axios HQ 的資料科學家 Priyanka Oberoi 表示:"Arthur Bench 幫助我們建立了一個內部框架,以在各個功能之間進行 LLM 評估的擴充套件和標準化,並以有意義且易於理解的指標描述效能。"
亞瑟將 Bench 設為開源工具,以便任何人都可以免費使用和貢獻。該新創公司堅信開源方法能夠產生最優秀的產品。但他們仍然可以透過團隊儀表板來實現商業化機會。此外亞瑟還與 Amazon Web Services(AWS)和 Cohere 合作舉辦駭客松,以鼓勵開發者為 Arthur Bench 建立新的度量標準。溫切爾表示 AWS 的 Bedrock 環境選擇和部署各種 LLMs 的方式與 Arthur Bench"在哲學上非常一致"。他說:"你如何理性地決定哪些 LLM 適合你?這非常符合 AWS 的策略。"亞瑟今年早些時候推出了 Arthur Shield,用於監測大型語言模型的錯覺和其他問題。
關鍵詞:開源、亞瑟、Bench、人工智慧、模型評估器
延伸閱讀
- AI 與影片履歷助力初入職場的新鮮人找到工作!
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 微軟刪除 AI 資料中心租賃,背後原因何在?