基於 Galileo 的新工具，揭開 AI 模型幻視的原因

基於 Galileo 的新工具幫助解釋 AI 模型幻視的原因引言進一步理解和解釋大型語言模型（LLM）的輸出是困擾人們的一個難題。總部位於舊金山的人工智慧新創公司 Galileo 致力於透過一系列新的監測和指標功能，幫助使用者更好地理解和解釋 LLM 的輸出。這些新功能是 Galileo LLM S .... (往下繼續閱讀)

by 程宇肖
2023/9/20
7 分鐘閱讀時間

A- A A+

文章目錄

基於 Galileo 的新工具幫助解釋 AI 模型幻視的原因

引言

進一步理解和解釋大型語言模型（LLM）的輸出是困擾人們的一個難題。總部位於舊金山的人工智慧新創公司 Galileo 致力於透過一系列新的監測和指標功能，幫助使用者更好地理解和解釋 LLM 的輸出。這些新功能是 Galileo LLM Studio 的一部分，該公司在今年 6 月首次宣布了這一更新。Galileo 由前 Google 員工創辦，並籌集了 1800 萬美元的資金，以幫助實現資料智慧化的 AI。Galileo Studio 現在允許使用者評估所有輸入的提示和上下文，同時實時觀察輸出。透過新的監測功能，該公司聲稱能夠更好地提供有關為何生成模型輸出的洞察力，並最佳化 LLM 的新指標和約束。

監測 Galileo 中的 LLM 如何工作

現代 LLM 通常依賴於應用程式對 LLM 的 API 呼叫以獲取響應。Galileo 的聯合創始人兼執行長 Vikram Chatterji 解釋說，Galileo 捕獲了這些 API 呼叫，無論是用於進入 LLM 的輸入還是生成的輸出。透過這些捕獲的資料，Galileo 能夠提供幾乎實時的模型效能和輸出準確性訊息給使用者。衡量生成 AI 輸出的事實準確性，往往會引發關於幻視的討論，當它生成的輸出不準確地基於事實時。文字的生成 AI 和轉換器模型都是透過預測在一系列單詞中下一個正確的單詞應該是什麼來工作的。這個方法是基於模型權重和分數，這些通常對終端使用者完全隱藏。“基本上，LLM 所做的就是嘗試預測下一個詞應該是什麼的機率，”他說，“但它還對下一個可能的詞有一個想法，並且將這些不同的標記或不同的詞分配機率。”Galileo 存取到模型本身，以理解這些機率的確切情況，然後提供了額外的指標來更好地解釋模型輸出並理解為什麼會出現特定的幻視。透過提供這種洞察力，Chatterji 表示目標是幫助開發人員更好地調整模型和微調以獲得最佳結果。他指出，Galileo 真正幫助的地方不僅僅是定量告訴開發人員存在幻視的可能性，還能以視覺方式解釋模型在每個詞上困惑的詞或提示。

保障和沉澱幫助開發人員夜間入眠

Chatterji 表示 LLM 應用程式存在一種風險，即可能透過不準確的回答導致麻煩，可能涉及不正確的資料、語言或保密訊息的披露，這樣的風險會讓一些開發人員夜不能寐。能夠識別模型幻視的原因並提供相關的指標是有幫助的，但還需要更多。因此 Galileo Studio 的更新還包括新的約束指標。對於 AI 模型，保障是對模型可以生成的訊息、語調和語言的一種約束。Chatterji 指出，金融服務和醫療保健組織對於可以披露的訊息和使用的語言存在著監管合規的擔憂。透過約束指標，Galileo 使用者可以設定自己的約束標準，然後監測和測量模型輸出，以確保 LLM 不會擺脫軌道。Galileo 現在還追蹤一個被 Chatterji 稱為“沉澱”的指標，即確保模型的輸出是否沉澱在提供的培訓資料範圍內。例如，Chatterji 解釋說，如果一個模型是根據抵押貸款檔案進行訓練的，但卻對與這些檔案完全無關的事情提供答案，則 Galileo 可以透過沉澱指標檢測到。這讓使用者知道回答是否真正與模型的培訓內容相關。雖然“沉澱”聽起來可能是確保是否發生幻覺的另一種方式，但實際上存在微妙的區別。Galileo 的幻覺指標分析模型對其回答的自信程度，並識別它對特定詞的困惑，測量模型的自信度和潛在的混淆。相比之下，“沉澱”指標檢查模型的輸出是否沉澱在或與實際提供的培訓資料相關。即使模型似乎自信，它的回答可能與其培訓範圍完全無關。“所以現在我們有了一系列指標，使用者現在可以更好地理解正在生產中發生的情況，”Chatterji 說道。

結論

Galileo 的新工具提供了更好地理解和解釋 AI 模型幻視原因的能力。透過實時監測和新的指標和約束，Galileo 希望幫助開發人員調整模型並提供最佳結果。這些功能將有助於提高應用程式的效能和可靠性，並降低模型輸出可能導致的風險。隨著 AI 技術的不斷發展和普及，理解和解釋模型輸出將變得越來越重要。Galileo 為開發人員提供了一個強大的工具，使他們能夠更好地應對模型產生的幻視問題，並最大限度地發揮 AI 技術的應用價值。

(關鍵字：Galileo、大型語言模型、幻視、AI 模型、監測、解釋、指標、約束、人工智慧)

Technology-基於 Galileo 的新工具,AI 模型幻視,原因

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

基於 Galileo 的新工具，揭開 AI 模型幻視的原因

文章目錄

基於 Galileo 的新工具幫助解釋 AI 模型幻視的原因

引言

監測 Galileo 中的 LLM 如何工作

保障和沉澱幫助開發人員夜間入眠

結論

延伸閱讀

人工智慧（AI）短期內不會取代牧師、部長、拉比或伊瑪目

「In Diagnostics 推出價值 30 美元的測試，能告訴您肝臟是否常規執行」

程宇肖