史丹佛研究質疑關於語言模型的假設：更大的背景並不意味著更好的理解能力

語言模型對長篇文字的理解能力不佳：應用前景受到質疑研究結果引發質疑史丹佛大學、加州大學伯克利分校和 Samaya AI 研究人員最近發布的一項研究指出，大型語言模型（LLMs）在長篇文字中往往難以獲取和使用給予它們的相關資訊。在語言模型中，「背景」指的是模型在一次諮詢或對話中能夠處理和回應的文字長度 .... (往下繼續閱讀)

by 程宇肖
2023/7/22
7 分鐘閱讀時間

A- A A+

文章目錄

語言模型對長篇文字的理解能力不佳：應用前景受到質疑

研究結果引發質疑

史丹佛大學、加州大學伯克利分校和 Samaya AI 研究人員最近發布的一項研究指出，大型語言模型（LLMs）在長篇文字中往往難以獲取和使用給予它們的相關資訊。在語言模型中，「背景」指的是模型在一次諮詢或對話中能夠處理和回應的文字長度。可以將其視為特定文字分析或聊天機器人專屬的工作記憶。這項研究自發布後廣受關注，因為許多開發人員和其他試用語言模型的使用者當初都以為增加背景的範圍會持續改善語言模型的效能，使其在各種應用中更有用。

背景假設的錯誤

這項研究的結果對包括 Anthropic 在內的 LLM 公司所宣揚的更長篇背景視窗的概念提出了質疑，該視窗能夠將使用者提供的更多輸入進行分析或摘要。Anthropic 最近推出了一款名為 Claude 2 的新模型，它提供一個巨大的 100k 詞元背景視窗，並聲稱能夠實現摘要長對話或起草備忘錄和專輯等新的用例。然而該研究顯示如果 LLMs 需要準確搜尋和分析背景視窗中的相關訊息，那麼關於背景視窗的某些假設是錯誤的。研究發現，LLMs 在「相關訊息出現在輸入背景的開頭或結尾時表現最佳，當模型必須在長背景的中間存取相關訊息時，效能顯著下降。此外即使是為了處理長背景的模型，效能隨著輸入背景的增長而大幅下降。」上週，業內人士（如向量資料庫公司 Pinecone 的執行長 Bob Wiederhold）將這項研究作為證據，證實將整個檔案放入檔案視窗以進行搜尋和分析等操作不會如許多人所期望的那樣成為萬靈丹。

傳統語意搜尋優於檔案注入

像 Pinecone 這樣的向量資料庫可以透過搜尋相關訊息並將其提取到背景視窗中來幫助開發人員擴充套件 LLM 的記憶能力。Wiederhold 指出，該研究顯示向量資料庫將在可預見的未來保持可行性，因為研究表明，向量資料庫提供的語意搜尋優於檔案注入。史丹佛大學的 Nelson Liu 是這項研究的首席作者，他同意，如果你試圖將整個 PDF 檔案注入語言模型的背景視窗，然後向其提問，那麼使用向量資料庫的語意搜尋通常會更高效。「如果你要搜尋大量的檔案，你應該使用專為搜尋而建的工具，至少當前是這樣」Liu 說。他同時警告稱，該研究並未斷言將整個檔案放入背景視窗是行不通的。具體結果將取決於 LLMs 分析的檔案內容的型別。Liu 解釋稱，語言模型在區分許多相互聯動或相關的事物方面表現不佳，但在許多其他事物都不相關時，卻能夠找到一個明顯相關的事物。「因此我認為這個問題比『你應該始終使用向量資料庫，還是永遠不要使用向量資料庫』更複雜」他說。

語言模型最佳應用場景：生成內容

Liu 表示他的研究假設大多數商業應用程式在使用某種向量資料庫來幫助將多個可能結果返回到背景視窗中的情況下執行。研究發現，在背景視窗中有更多結果並不總是提高效能。作為一位語言處理專家，Liu 表示他對人們打算使用背景視窗搜尋內容、進行聚合或綜合的想法感到驚訝，儘管他能夠理解人們這樣做的原因。他說，人們應該繼續將語言模型視為生成內容的最佳工具，並將搜尋引擎視為搜尋內容的最佳工具。「你不能僅僅將一切都塞進語言模型中，然後盲目地祈禱它能常規工作。我認為我們還沒有達到那個程度，但也許這個領域在幾年甚至幾個月的時間內就會發展到那個程度。當前來說語言模型不會取代向量資料庫和搜尋引擎」他說。

LanguageModelling-史丹佛,研究,質疑,語言模型,假設,背景,理解能力

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集