市場觀察

一個幣值如何讓人工智慧模型永遠保持順暢執行

解決語言模型中的效能問題:"StreamingLLM"研究問題背景大型語言模型(LLMs)如 OpenAI 的 ChatGPT、Meta 的 Llama 2 和 Anthropic 的 Claude 2 一直是矽谷和企業技術界當前人工智慧(AI)熱潮的中心,但從根本上來說它們都存在一些相同的問題。其 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

一個幣值如何讓人工智慧模型永遠保持順暢執行

解決語言模型中的效能問題:"StreamingLLM"研究

問題背景

大型語言模型(LLMs)如 OpenAI 的 ChatGPT、Meta 的 Llama 2 和 Anthropic 的 Claude 2 一直是矽谷和企業技術界當前人工智慧(AI)熱潮的中心,但從根本上來說它們都存在一些相同的問題。其中之一是在與使用者的單次對話中,LLM 能夠持續提供有用、快速和相關的回答,不論對話持續多長時間或多少次交流對話。

這是因為 LLMs 是在特定長度的資料塊或序列(如 Llama 2 等領先的 LLMs 的情況下為 4,000 個單詞)上進行預訓練。一旦使用者輸入的單詞超過此數量,即使是在多個不同的提示下進行,LLM 的效能也會下降,即響應質量變差。對於希望 LLM 無約束地幫助客戶或員工的企業來說這是不可接受的。

解決方案:StreamingLLM

最近,Meta、麻省理工學院(MIT)和卡內基梅隆大學(CMU)的研究人員發表了一篇新論文,提出了一種名為“StreamingLLM”的新框架,用於訓練和部署 LLM 推理,並為其他 AI 研究人員和企業提供了一些重要的結果。

問題定義

無論您是客戶還是員工,當您與客戶支援專家或內部 IT 技術人員交流時,通常需要花費時間進行長時間的對話和多次訊息交流才能解決問題。但無論何時,您都希望負責幫助您的人在整個交流中始終保持反應快、知識豐富和有幫助。如果在對話深入進行時,您已經花費了時間和精力解釋您的問題,但您的幫助者突然回答一個字、回答速度變慢,或者不提供您需要的訊息,這會非常令人沮喪並且產生反效果。

對於 LLMs 來說這可能也是一個問題,因為一旦與 LLMs 的對話超出了"上下文視窗"(LLM 可以一次響應的最大單詞數),其效能就會下降。即使大多數 LLMs 設計用於處理可能持續多行的無約束對話,每行都應該在 LLMs 的上下文視窗內,但在單個對話中多個訊息的總和的數量超過了 LLM 初始預訓練上下文視窗中的單詞數量,導致 LLM 的效能下降。這就好像當您在與一位人工客戶支援代理人交談時,一旦您說了一定數量的單詞(在幾個句子中共同解釋為某個您未知的約束),他們突然變得更笨且專注力下降。

StreamingLLM 的解決方案

研究人員發現,LLMs 更容易關注在對話早期提示的單詞上,並將這些單詞用於後續的回答。他們寫道:"出乎意料地,大量的注意力分數被分配給初始標記"。這是為什麼呢?研究人員解釋道:"由於自回歸語言模型的線序性,初始標記對所有後續標記可見,而後續標記僅對有限的一組後續標記可見。因此初始標記更容易被訓練為關注數量不必要的注意力。"

換句話說,當您與 LLM 交談時,無論您在開始對話時提示的是什麼,LLM 都可以並且會在後續的提示和回答中使用它們,但您後續提示給它的東西不一定是 LLM 選擇關注或在回答中引用的。然而研究人員發現,如果使用者稍後在與 LLM 的對話中提供一些初始標記,則在後續的回答中,這些初始標記足以將 LLM 的效能恢復到接近其巔峯狀態。如果您還記得我們之前提到的人工客戶支援比喻,想象一下如果透過再次說出您在與他們對話開始時說的這四個神奇單詞,您可以在後續對話中突然獲得高質量的回答。研究人員恰當地將這些吸引 LLM 大部分注意力的初始標記稱為"attention sinks",並指出對於大多數 LLMs 來說"引入四個初始標記作為 attention sinks 足以恢復 LLM 的效能...增加一到兩個標記並不能實現完全的恢復"。

引進 Attention Sink 解決方案

透過在每次使用者發出的提示中重新引入 Attention Sink(前面提到的初始標記),研究人員能夠在包含 400 萬個單詞(原始上下文視窗僅有 4,000 個單詞)的提示中保持領先模型(包括 Llama 2 和 Falcon 40B)的效能,並在後續的回答中提高 22.2 倍的速度。換句話說,StreamingLLM "使有限注視視窗下訓練的 LLMs 能夠處理無限長的文字而無需微調(theoretically)"。重要的是,這個"無限"長的文字仍然需要以大小約束在上下文視窗的塊進行交付給 LLM,但這意味著 LLM 可以與某人進行永不停止的對話並始終保持效能(從理論上來說)。

僅需一個 Attention Sink

研究人員還提出了進一步的發現,他們假設並證實,您實際上只需要新增一個特殊的標記作為 LLM 的"attention sink",並在早期引入此標記後,無論是手動還是自動地在以後的提示中(在面向使用者或員工的 LLM 背後),仍然可以保持 LLM 的高效能。研究人員解釋道:"引入一個 attention sink 標記在穩定注意力機制方面非常有效。僅將此 sink 標記與最近的標記配對就足以確保模型的效能…基於這些發現,我們建議在所有樣本中訓練未來的 LLMs 時都使用 sink 標記,以最佳化流式部署"。

當被問及 Attention Sink 的具體資料時,該論文的一位作者、麻省理工學院的 Guangxuan Xiao 在給 VentureBeat 的一封電子郵件中寫道,"attention sinks 可以是任何初始單詞;更關注的是它們的位置而不是語義...這些不是特定的詞語或概念;即使是沒有語義含義的符號(如換行符"\n")也能夠有效地工作"。

結論

StreamingLLM 的這項研究為解決 LLM 在長時間對話中效能下降的問題提供了一種創新的解決方案。藉著重新引入 Attention Sink 標記,LLM 可以在超出其上下文視窗的情況下仍然保持高效能。這一研究對於開發無限對話應用是非常重要的,如日常助手 LLM。透過這種方法,模型可以持續執行,利用最近的互動,無需頻繁重新整理快取。

然而研究人員也明確指出了他們工作的約束,並強調 StreamingLLM 並不能擴充套件 LLMs 的上下文視窗,與一些關於該研究的炒作在推特上的聲音相反。它也不能確保 LLM 在對話的每個時刻都記住所說的一切。

Technology-幣值,人工智慧模型,順暢執行

延伸閱讀

程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。