AIGC

TruEra 推出免費工具，測試 LLM 應用程式對幻覺的影響

TruEra 推出免費工具 TruLens 幫助 LLM 應用程式測試 TruEra 是一家提供測試、偵錯和監控機器語言模型（ML）的工具供應商，它今天推出了一款名為 TruLens 的開源軟體，專門用於測試基於大型語言模型（LLMs）的應用程式，如 GPT 系列。TruLens 從今天開始免費提供， .... (往下繼續閱讀)

by 程宇肖
2023/5/25
6 分鐘閱讀時間

A- A A+

文章目錄

TruEra 推出免費工具 TruLens 幫助 LLM 應用程式測試

TruEra 是一家提供測試、偵錯和監控機器語言模型（ML）的工具供應商，它今天推出了一款名為 TruLens 的開源軟體，專門用於測試基於大型語言模型（LLMs）的應用程式，如 GPT 系列。TruLens 從今天開始免費提供，可以快速、簡便地評估和迭代 LLM 應用程式，並消除在生產階段出現幻覺和偏見的可能性。當前僅有少數供應商提供工具來處理 LLM 應用程式開發的這一方面，盡管各個行業的企業都在探索生成式 AI 在不同用例中的潛力。

為什麼需要使用 TruLens 來測試 LLM 應用程式？

LLMs 是當下的熱門技術，但是當企業開發基於這些模型的應用程式時，必須經過一個繁瑣的實驗過程，其中涉及到由人驅動的回應評分。基本上，一旦開發出第一個版本的應用程式，團隊必須手動測試和審查其答案，調整提示、超引數和模型，然後一遍又一遍地重新測試，直到達到滿意的結果。這不僅時間耗費大量，而且難以擴充套件。TruLens 正在填補這一空白，透過引入稱為“反饋函數”的程式化評估方法來解決這個問題。TruEra 解釋說，反饋函數是透過分析 LLM 生成的文字和響應的後設資料對 LLM 應用程式的輸出進行質量和功效評分的一種方式。這有助於開發人員更快地建立可信且強大的 LLM 應用程式。

如何使用 TruLens 進行 LLM 測試？

TruLens 可以在幾行程式碼中新增到開發過程中。使用者可以建立自己的反饋函數，或使用預設選項。當前這個軟體提供了一系列測試，包括真實性、問答相關性、有害或有毒語言、使用者情感、語言不匹配、回應綜合度以及公正性和偏見。此外它還記錄了 LLM 在應用程式中的使用頻率，提供了一種跟蹤使用成本的簡單方式。

其他 LLM 應用程式測試產品介紹

雖然測試 LLM 驅動的應用程式的效能和響應精度是當務之急，但只有少數供應商推出理解決方案來處理這個問題。這些方案包括 Datadog 的 OpenAI 模型監控整合、Arize 的 Pheonix 解決方案和以色列 Mona Labs 剛推出的生成式 AI 監控解決方案。TruEra 聲稱，TruLens 最適合在 LLM 應用程式開發的開發階段使用。根據 Accenture 的調查，全球 98%的高管認為 AI 基礎模型將在未來三到五年中在其組織的戰略中發揮重要作用。這表明像 TruLens 這樣的工具將很快受到企業的增加需求。

結論與建議

隨著 LLMs 的發展以及企業對其應用程式的日益追求，LLM 應用程式測試具有相當重要性。TruEra 透過推出 TruLens，提供了一個更簡單、快速的方法來測試和迭代 LLM 應用程式。然而需要注意的是，TruLens 主要適用於開發階段，對於生產過程中的 LLM 應用程式測試，還需要審慎選擇確保更適合的工具來使用。此外對於企業而言，在使用 TruLens 進行測試時，還必須調整反饋函數以滿足其特定的應用場景。

LLM Application Testing.-TruEra,免費工具,LLM 應用程式,幻覺,測試

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集