亞瑟推出開源工具助公司尋找最佳 LLM 工作
概述
亞瑟(Arthur)是一家機器學習監控新創公司,今年受到創新 AI 的興趣的推動,一直在開發工具,以幫助公司更有效地運用 LLM(語言模型)工作。今天他們釋出了一個名為 Arthur Bench 的開源工具,旨在幫助使用者找到最適合特定資料集的 LLM。亞瑟的執行長兼共同創始人亞當·文切爾(Adam Wenchel)表示公司對生成 AI 和 LLM 感興趣的程度很高,因此他們一直努力建立相關產品。他表示就在不到一年前 ChatGPT 才釋出,公司發現企業沒有一種有組織的方式來度量不同工具之間的有效性,這就是為什麼他們建立了 Arthur Bench 的原因。文切爾告訴 TechCrunch 說:“亞瑟工作臺解決了與每個客戶都有的一個重大問題,那就是在所有模型選擇中,哪一個對您的特定應用最合適。” Arthur Bench 附帶了一套工具,您可以使用這些工具有從容的測試效能的能力,但其真正價值在於,它允許您測試並評估您的使用者可能在特定應用中使用的提示型別對不同 LLM 的表現情況。文切爾表示:“您可以潛在地測試 100 個不同的提示,然後看看兩個不同的 LLM - 像 Anthropic 和 OpenAI 這樣的模型 - 在您的使用者可能使用的提示型別上的表現如何。”他還表示您可以大規模地進行測試,從而更好地決定哪個模型對您的特定用例最佳。開源工具與 SaaS 版本
Arthur Bench 今天作為開源工具發布。此外還將提供一個 SaaS 版本,以方便那些不想處理開源版本的復雜性或擁有更大測試要求,並願意支付相應費用的客戶。但當前文切爾表示他們專注於開源專案的發展。在今年 5 月發布的 Arthur Shield 之後,這是又一項新工具。Arthur Shield 是一種 LLM 防火牆,旨在檢測模型中的幻覺,同時防止有害訊息和私人資料洩漏。評論與建議
亞瑟的開源工具 Arthur Bench 對於在不同 LLM 之間進行有效性測量的企業來說提供了一個重要的解決方案。在生成 AI 迅猛發展的今天越來越多的公司開始利用 LLM 來提升業務效能。然而由於 LLM 的多樣性和不同模型的出現,如何選擇最適合的 LLM 工作是一個關鍵問題。Arthur Bench 的出現填補了這一空白,幫助企業進行系統化的測試和評估過程。 在使用 Arthur Bench 時,企業應該注意以下幾點。首先企業需要確保自己的特定用例和預期結果,並制定相應的提示型別。該工具提供了測試各種提示型別和不同 LLM 效能的能力,因此企業需要根據自己的需求進行有目的的測試。其次企業應該密切關注測試過程中不同 LLM 的表現,包括生成結果的質量和準確性。此外企業也應該考慮測試規模和效率,以確保在最短的時間內找到最佳 LLM。 值得注意的是,儘管 Arthur Bench 是一個有用的工具,但它僅提供了測試和評估的框架,真正的選擇還應該基於企業的綜合考慮。除了測試 LLM 的效能外,企業還應該考慮將 LLM 整合到其業務流程中的可行性,包括相應的資料需求、模型適應性和部署成本等因素。 在這個充滿競爭的 AI 時代,企業要想在市場中取得競爭優勢,不僅需要使用最新的技術,還需要具備良好的戰略思考和適應能力。使用 Arthur Bench 的開源工具可以幫助企業在選擇和應用 LLM 方面更具依據,但它只是一個輔助工具,企業還需要不斷追求創新,從更廣泛的角度思考和實踐 AI 技術的應用。關鍵詞:
開源工具、亞瑟、公司、最佳職位、LLM、生成 AI、Arthur Bench、LLM firewall、ChatGPTOpen-sourcetool-亞瑟,開源工具,公司,最佳職位,LLM
延伸閱讀
- EQT 以超過 6 億美元收購 API 和身份管理軟體公司 WSO2
- 「不鏽鋼」幫助 OpenAI、Anthropic 等公司構建其 API 的 SDK
- 帕羅奧圖網路防火牆漏洞遭攻擊,數千家公司面臨新的災害
- Meta 宣布其 Llama 3 開源 LLM 將在下個月推出
- Google 釋出開源工具,支援 AI 模型開發
- 資料庫公司 DataStax 收購低程式碼 AI 平臺 Langflow 的新創公司
- 土耳其新的遊戲專注型風險投資公司展示遊戲產業持續升溫
- Bolt 一鍵結帳公司 CEO Maju Kuruvilla 下臺
- 川普 Truth Social 背後公司為何加入日益增長的 IPO 趨勢
- 瀏覽器公司以 5.5 億美元估值籌措了 5000 萬美元