
TruEra 推出免費工具 TruLens 幫助 LLM 應用程式測試
TruEra 是一家提供測試、偵錯和監控機器語言模型(ML)的工具供應商,它今天推出了一款名為 TruLens 的開源軟體,專門用於測試基於大型語言模型(LLMs)的應用程式,如 GPT 系列。TruLens 從今天開始免費提供,可以快速、簡便地評估和迭代 LLM 應用程式,並消除在生產階段出現幻覺和偏見的可能性。當前僅有少數供應商提供工具來處理 LLM 應用程式開發的這一方面,盡管各個行業的企業都在探索生成式 AI 在不同用例中的潛力。
為什麼需要使用 TruLens 來測試 LLM 應用程式?
LLMs 是當下的熱門技術,但是當企業開發基於這些模型的應用程式時,必須經過一個繁瑣的實驗過程,其中涉及到由人驅動的回應評分。基本上,一旦開發出第一個版本的應用程式,團隊必須手動測試和審查其答案,調整提示、超引數和模型,然後一遍又一遍地重新測試,直到達到滿意的結果。這不僅時間耗費大量,而且難以擴充套件。TruLens 正在填補這一空白,透過引入稱為“反饋函數”的程式化評估方法來解決這個問題。TruEra 解釋說,反饋函數是透過分析 LLM 生成的文字和響應的後設資料對 LLM 應用程式的輸出進行質量和功效評分的一種方式。這有助於開發人員更快地建立可信且強大的 LLM 應用程式。
如何使用 TruLens 進行 LLM 測試?
TruLens 可以在幾行程式碼中新增到開發過程中。使用者可以建立自己的反饋函數,或使用預設選項。當前這個軟體提供了一系列測試,包括真實性、問答相關性、有害或有毒語言、使用者情感、語言不匹配、回應綜合度以及公正性和偏見。此外它還記錄了 LLM 在應用程式中的使用頻率,提供了一種跟蹤使用成本的簡單方式。
其他 LLM 應用程式測試產品介紹
雖然測試 LLM 驅動的應用程式的效能和響應精度是當務之急,但只有少數供應商推出理解決方案來處理這個問題。這些方案包括 Datadog 的 OpenAI 模型監控整合、Arize 的 Pheonix 解決方案和以色列 Mona Labs 剛推出的生成式 AI 監控解決方案。TruEra 聲稱,TruLens 最適合在 LLM 應用程式開發的開發階段使用。根據 Accenture 的調查,全球 98%的高管認為 AI 基礎模型將在未來三到五年中在其組織的戰略中發揮重要作用。這表明像 TruLens 這樣的工具將很快受到企業的增加需求。
結論與建議
隨著 LLMs 的發展以及企業對其應用程式的日益追求,LLM 應用程式測試具有相當重要性。TruEra 透過推出 TruLens,提供了一個更簡單、快速的方法來測試和迭代 LLM 應用程式。然而需要注意的是,TruLens 主要適用於開發階段,對於生產過程中的 LLM 應用程式測試,還需要審慎選擇確保更適合的工具來使用。此外對於企業而言,在使用 TruLens 進行測試時,還必須調整反饋函數以滿足其特定的應用場景。