網路議題

Arize AI 推出全新的「Prompt Playground」和資料分析工具,旨在提升企業語言模型的表現

探索企業語言模型(LLM)的最佳使用方式概述企業正在以不同的速度競相分析和利用生成式人工智慧(AI),希望以智慧、安全且具有成本效益的方式實現這一目標。然而一旦組織確保了一個或多個希望使用的大型語言模型(LLM),工作才正式開始。實際上要使 LLM 對組織產生效益,需要理解員工或客戶使用哪些提示可以 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

Arize AI 推出全新的「Prompt Playground」和資料分析工具,旨在提升企業語言模型的表現

探索企業語言模型(LLM)的最佳使用方式

概述

企業正在以不同的速度競相分析和利用生成式人工智慧(AI),希望以智慧、安全且具有成本效益的方式實現這一目標。然而一旦組織確保了一個或多個希望使用的大型語言模型(LLM),工作才正式開始。實際上要使 LLM 對組織產生效益,需要理解員工或客戶使用哪些提示可以生成有用的結果以及組織或使用者需要包含哪些資料來生成這些提示。Arize AI 的聯合創始人兼首席產品官 Aparna Dhinakaran 在一次獨家影片訪談中表示:“你不能只是把推特上 LLM 的展示放到現實世界中,它實際上會失敗。那麼你如何知道它在哪裡失敗?你又如何知道應該如何改進呢?這就是我們關注的問題。”Arize AI 是一家三年前成立的 B2B 機器學習軟體提供商,其一直致力於使 AI 對組織更加可觀察(不僅僅是技術性和可理解性)。

Prompt Playground 和新的工作流程

Arize AI 最新的提示工程工作流程包括 Prompt Playground,使團隊能夠發現效能不佳的提示模板,實時對其進行迭代,並在部署之前取證改進的 LLM 輸出。Prompt analysis 是解決 LLM 效能問題的重要但常常被忽視的部分,透過測試不同的提示模板或對現有模板進行迭代,可以簡單提升效能。透過這些新的工作流程,團隊可以輕鬆地:
  • 發現使用者反饋不佳或評估分數低的回答
  • 確保與效能不佳回答相關的提示模板
  • 改進現有提示模板以更好地應對邊緣情況
  • 在實施之前在 Prompt Playground 中比較不同的提示模板
根據 Dhinakaran 的解釋,提示工程對於與當今市場上的 LLM 競爭至關重要。該公司的新的提示分析和迭代工作流程有助於團隊確保它們的提示涵蓋了必要的用例和可能出現的邊緣情況,這些邊緣情況可能會出現在實際使用者中。“為了保持競爭力,你必須確保模型中的提示足夠好,” Dhinakaran 說道。“我們所推出的功能有助於團隊為提高效能而設計出更好的提示。就是這麼簡單:我們幫助您確保該提示的效能良好,並涵蓋您需要處理的所有這些情況。” 例如,教育 LLM 聊天機器人的提示需要確保沒有不當回答,而客戶服務的提示則應該涵蓋可能出現的邊緣情況和有關所提供或不提供的服務的細微區別。Arize 還提供了行業首個洞察力,深入分析影響 LLM 輸出的私有或上下文資料-也就是 Dhinakaran 所稱的公司提供的“祕密配方”。該公司獨特地分析嵌入式資料,評估融入提示中的私有資料的相關性。“我們推出的是一種 AI 團隊現在可以監控、檢視提示,改善它,並專注於理解現在放入這些提示中的私有資料的方法,因為私有資料是有意義的,” Dhinakaran 說道。Dhinakaran 告訴 VentureBeat,企業可以出於安全原因在本地部署其解決方案,並且符合 SOC-2 標準。

私有組織資料的重要性

這些新功能使團隊能夠檢查提示中是否存在正確的上下文以處理真實使用者的查詢。團隊可以確保在當前的知識庫中缺乏對常見問題的涵蓋範圍的地方,需要新增更多內容。“沒有其他人真正關注這些私有資料的故障排除,這些資料是影響提示的祕密配方,” Dhinakaran 指出。Arize 還推出了使用搜尋和檢索的相關工作流程,幫助團隊解決與 RAG 模型的檢索元件有關的問題。這些工作流程將使團隊能夠找出需要在知識庫中增加額外上下文的地方,識別檢索未能呈現最相關訊息的情況,並最終理解為什麼他們的 LLM 可能出現了幻覺或生成了次優的回答。 理解上下文和相關性——以及它們的缺失 Dhinakaran 舉了一個例子,說明了 Arize 如何檢視查詢和知識庫嵌入來發現與之相關的不相關檔案,這可能導致錯誤的回答。“你可以在我們的產品中點選一個使用者問題,它會顯示出所有可能提取的相關檔案以及最終用在回答中的那個檔案,” Dhinakaran 解釋道。“然後,您可以檢視模型可能由於知識庫的不足而幻象或提供次優回答。”這種端到端的可觀察性和故障排除提示、私有資料和檢索旨在幫助團隊在初次部署之後,當模型不可避免地無法應對現實世界的變異時,負責負責任地最佳化 LLM。Dhinakaran 總結道:“我們不只是提供一個解決方案;我們幫助您實際上實現它。”該公司旨在提供組織缺少的監控和偵錯能力,以便能夠不斷改進部署後的 LLM。這使它們能夠將理論價值轉化為實際對各個行業產生影響。

結論

Arize AI 的最新能力為企業客戶部署的 LLM 最佳化提供了行業首個功能,其中包括一個新的“Prompt Playground”用於選擇和迭代針對企業設計的儲存提示以及一個新的檢索增強生成(RAG)工作流,幫助組織理解哪些資料對於 LLM 的回答是有幫助的。透過這些功能,團隊能夠更好地最佳化 LLM 的效能,確保提示覆蓋必要的使用情景和可能出現的邊緣情況。同時團隊還能夠深入分析和理解私有資料對於 LLM 輸出的影響,從而改進知識庫內容。這些功能的引入使得 Arize AI 成為 Google Cloud Marketplace 上一個更強大的解決方案供應商。企業可以在保持安全性的情況下部署 Arize 的解決方案,並且符合 SOC-2 標準。 隨著企業對生成式 AI 的需求不斷增長,Arize AI 的創新功能為企業提供了一個更加可觀察和易於最佳化 LLM 的方法。透過使用 Prompt Playground 和新的工作流程,團隊可以更好地理解和應對 LLM 的效能問題,並且能夠在模型部署後不斷改進其效能。這不僅可以幫助企業獲得更好的結果,還可以提高 LLM 的實際價值,從而在各個行業產生實質影響。
Language,AI,Data,Analysis-ArizeAI,PromptPlayground,資料分析工具,企業語言模型,表現提升
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。