AIGC

一枚代幣能讓 AI 模型無限流暢執行！StreamingLLM 體現神奇威力！

AI 模型的約束：持續對話中的問題大型語言模型（LLM）如 OpenAI 的 ChatGPT、Meta 的 Llama 2 和 Anthropic 的 Claude 2 一直是當前矽谷和企業科技界 AI 熱潮的中心，但是它們都存在一些相同的問題。其中一個問題是在與使用者的單個對話中，LLM 在整個對 .... (往下繼續閱讀)

by 江塵
2023/10/6
8 分鐘閱讀時間

A- A A+

文章目錄

AI 模型的約束：持續對話中的問題

大型語言模型（LLM）如 OpenAI 的 ChatGPT、Meta 的 Llama 2 和 Anthropic 的 Claude 2 一直是當前矽谷和企業科技界 AI 熱潮的中心，但是它們都存在一些相同的問題。其中一個問題是在與使用者的單個對話中，LLM 在整個對話過程中的表現能力始終如一，無論對話持續多長時間或進行多少次對話交換，它的回覆都應該是有用、快速和相關的。然而由於 LLM 是在一定長度（比如 Llama 2 等主要 LLM 的情況下是 4,000 個 tokens）的資料塊或序列上預訓練的，當使用者輸入的 token 超過這個數量後，LLM 的表現就會下降，回覆的質量也會變差。這對於希望 LLM 以開放方式幫助客戶或員工的企業來說是無法接受的。

研究者提出的解決方案

研究者們提出了一個創新的解決方案，用於在對話中運用 LLM 時保持其效能。他們發現 LLM 對於對話初期的 tokens 更加關注。他們指出：“由於自回歸語言模型的線序性，LLM 對於後面的 tokens 只對有限的 tokens 可見，而對於初始 tokens 則對所有後續 tokens 可見。”換句話說，LLM 在對話中所看到的第一個 tokens 以後的部分不一定是它在回答時關注或引用的。然而研究者們發現，如果使用者在對話的後期再次提供一些初始 tokens，LLM 在回答時就能夠回復到接近最佳狀態。這就好比，當你對一位客戶支援代表說了幾個詞，後來在對話晚期再次重複這幾個詞，他們突然之間能夠提供高質量的回應。

一個 tokens 的奇蹟

研究者們進一步假設並證實，實際上只需新增一個特殊的代幣作為 LLM 的“attention sink”（注意力專注點），早期的訓練中將其與最新的 tokens 配對，即可維持 LLM 的高效能。研究者解釋說：“引入一個 attention sink 代幣在穩定注意機制方面非常有效...只需將此 attention sink 代幣與最新的 tokens 配對，就足以確保模型的效能...根據這些研究結果，我們建議在所有樣本中訓練未來的 LLM 時加入 sink token 以最佳化流式部署。”據 MIT 的 Guangxuan Xiao 表示 sink token 可以是任何初始 tokens，重點在於它們的位置而不是語義，甚至沒有語義意義的 tokens（例如換行符“\n”）也能有效地起作用。

StreamingLLM：突破約束的新框架

這項研究的成果被研究者們稱為“StreamingLLM”，並展示了該框架對於其他 AI 研究者和企業利用 LLM 幫助業務的重要發現。使用 StreamingLLM，研究人員能夠在包含 4 百萬個 tokens 的 prompt（與最初的 4,000 個 tokens 的上下文視窗相比增加了 1000 倍）中，保持領先模型（包括 Llama 2 和 Falcon 40B）的效能，而且回答速度還提高了 22.2 倍。換句話說，StreamingLLM 使得“有限注意視窗模型能夠處理無限長的文字，而無需進行微調”。這意味著 LLM 可以與某個人進行永無止境的對話，並在整個對話過程中保持其高效能（理論上）。

StreamnigLLM 的應用前景與約束

研究人員們希望 StreamingLLM 能夠應用於連續對話等持續應用場景，例如日常助理。他們指出：“對於那些需要不斷工作而不需過多依賴過去資料的模型來說 StreamingLLM 非常完美。透過我們的方法，該模型可以持續執行，從最近的互動中得到啟示，無需頻繁更新快取。”研究人員還明確指出他們的工作的局限性，並強調 StreamingLLM 不能擴充套件 LLM 的上下文視窗，也不能確保 LLM 會記住對話中的每一個詞句。“實際上我們既沒有擴大 LLM 的上下文視窗，也沒有改進其長期記憶能力。”研究者 Guangxuan Xiao 在與 VentureBeat 的電子郵件中補充道。

結論與建議

StreamingLLM 的問世為解決 LLM 在持續對話中效能下降的問題提供了新的思路，並對企業利用 LLM 改善客戶和員工體驗具有重要意義。企業應該考慮使用 StreamingLLM 來提高 LLM 在長時間對話中的表現，從而更好地滿足客戶和員工的需求。

然而藉此研究的成功也提醒我們 LLM 仍然有其約束。例如，在處理非常長的文字時，仍然需要將其切片為 LLM 能處理的上下文視窗大小的塊。此外 StreamingLLM 並不能改善 LLM 的長期記憶能力，所以企業應該注意這一點，並選擇適合其需求的解決方案。

總結來說 StreamingLLM 的研究成果為解決 LLM 在持續對話中的效能下降問題提供了新的方向，為企業實現更好的客戶和員工體驗開闢了新的可能性。

AI 模型-AI 模型,代幣,StreamingLLM,流暢執行,神奇威力

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集