AIGC

TruEra 推出免費工具,測試 LLM 應用程式對幻覺的影響

TruEra 推出免費工具 TruLens 幫助 LLM 應用程式測試 TruEra 是一家提供測試、偵錯和監控機器語言模型(ML)的工具供應商,它今天推出了一款名為 TruLens 的開源軟體,專門用於測試基於大型語言模型(LLMs)的應用程式,如 GPT 系列。TruLens 從今天開始免費提供, .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

TruEra 推出免費工具,測試 LLM 應用程式對幻覺的影響

TruEra 推出免費工具 TruLens 幫助 LLM 應用程式測試

TruEra 是一家提供測試、偵錯和監控機器語言模型(ML)的工具供應商,它今天推出了一款名為 TruLens 的開源軟體,專門用於測試基於大型語言模型(LLMs)的應用程式,如 GPT 系列。TruLens 從今天開始免費提供,可以快速、簡便地評估和迭代 LLM 應用程式,並消除在生產階段出現幻覺和偏見的可能性。當前僅有少數供應商提供工具來處理 LLM 應用程式開發的這一方面,盡管各個行業的企業都在探索生成式 AI 在不同用例中的潛力。

為什麼需要使用 TruLens 來測試 LLM 應用程式?

LLMs 是當下的熱門技術,但是當企業開發基於這些模型的應用程式時,必須經過一個繁瑣的實驗過程,其中涉及到由人驅動的回應評分。基本上,一旦開發出第一個版本的應用程式,團隊必須手動測試和審查其答案,調整提示、超引數和模型,然後一遍又一遍地重新測試,直到達到滿意的結果。這不僅時間耗費大量,而且難以擴充套件。TruLens 正在填補這一空白,透過引入稱為“反饋函數”的程式化評估方法來解決這個問題。TruEra 解釋說,反饋函數是透過分析 LLM 生成的文字和響應的後設資料對 LLM 應用程式的輸出進行質量和功效評分的一種方式。這有助於開發人員更快地建立可信且強大的 LLM 應用程式。

如何使用 TruLens 進行 LLM 測試

TruLens 可以在幾行程式碼中新增到開發過程中。使用者可以建立自己的反饋函數,或使用預設選項。當前這個軟體提供了一系列測試,包括真實性、問答相關性、有害或有毒語言、使用者情感、語言不匹配、回應綜合度以及公正性和偏見。此外它還記錄了 LLM 在應用程式中的使用頻率,提供了一種跟蹤使用成本的簡單方式。

其他 LLM 應用程式測試產品介紹

雖然測試 LLM 驅動的應用程式的效能和響應精度是當務之急,但只有少數供應商推出理解決方案來處理這個問題。這些方案包括 Datadog 的 OpenAI 模型監控整合、Arize 的 Pheonix 解決方案和以色列 Mona Labs 剛推出的生成式 AI 監控解決方案。TruEra 聲稱,TruLens 最適合在 LLM 應用程式開發的開發階段使用。根據 Accenture 的調查,全球 98%的高管認為 AI 基礎模型將在未來三到五年中在其組織的戰略中發揮重要作用。這表明像 TruLens 這樣的工具將很快受到企業的增加需求。

結論與建議

隨著 LLMs 的發展以及企業對其應用程式的日益追求,LLM 應用程式測試具有相當重要性。TruEra 透過推出 TruLens,提供了一個更簡單、快速的方法來測試和迭代 LLM 應用程式。然而需要注意的是,TruLens 主要適用於開發階段,對於生產過程中的 LLM 應用程式測試,還需要審慎選擇確保更適合的工具來使用。此外對於企業而言,在使用 TruLens 進行測試時,還必須調整反饋函數以滿足其特定的應用場景。

LLM Application Testing.-TruEra,免費工具,LLM 應用程式,幻覺,測試
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。