產品管理

DeepMind 發現 AI 大型語言模型能夠最佳化自身提示

深度學習模型的最佳化:AI 大型語言模型的潛力背景為了確保深度學習模型有足夠高的準確率,大多數人在程式設計新的深度學習 AI 模型時,都依賴最佳化算法,或稱為最佳化器。然而最常用的最佳化器之一——基於導數的最佳化器——在處理現實世界應用時遇到了困難。最近,DeepMind 的研究人員在一篇新的論文中 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

DeepMind 發現 AI 大型語言模型能夠最佳化自身提示

深度學習模型的最佳化:AI 大型語言模型的潛力

背景

為了確保深度學習模型有足夠高的準確率,大多數人在程式設計新的深度學習 AI 模型時,都依賴最佳化算法,或稱為最佳化器。然而最常用的最佳化器之一——基於導數的最佳化器——在處理現實世界應用時遇到了困難。最近,DeepMind 的研究人員在一篇新的論文中提出了一種新方法:Prompt 最佳化(OPRO),這種方法使用了 AI 大型語言模型作為最佳化器。這種方法的獨特之處在於,最佳化任務是透過自然語言而非形式數學定義進行的。研究人員寫道:“我們不是透過正式定義最佳化問題並透過程式設計求解器推匯出更新步驟,而是透過自然語言描述最佳化問題,然後指導大型語言模型根據問題描述和之前找到的解來迭代生成新解。”

方法

OPRO 的過程始於一個“元提示”作為輸入。這個元提示包括一個任務的自然語言描述以及一些問題的例子、提示指令的佔位符和相應的解決方案。當最佳化過程進行時,大型語言模型(LLM)生成候選解。這些解是基於問題描述和元提示中包含的先前解。然後,OPRO 評估這些候選解,為每個解分配一個品質分數。優秀的解和它們的分數被新增到元提示中,豐富了下一輪解生成的上下文。這個迭代的過程持續到模型不再提出更好的解為止。

研究人員解釋說:“LLM 在最佳化方面的主要優勢在於它們理解自然語言的能力,這使人們可以在不需要正式規範的情況下描述他們的最佳化任務。”這意味著使用者可以指定目標指標,例如“準確性”,同時提供其他指令。例如,他們可以要求模型生成既簡潔又廣泛應用的解。OPRO 還利用 LLM 發現上下文中的模式的能力。這使得模型能夠基於元提示中包含的例子識別出一條最佳化軌跡。研究人員指出:“將最佳化軌跡包含在元提示中使得 LLM 能夠識別出具有高分數的解的相似之處,鼓勵 LLM 在不需要明確保義解的更新方式的情況下建立在現有優秀解的基礎上構造出可能更好的解。”

效能取證

為了取證 OPRO 的有效性,研究人員將其應用在兩個著名的數學最佳化問題上:線性回歸和“旅行推銷員問題”。雖然 OPRO 在解決這些問題方面可能不是最優的方法,但結果是令人鼓舞的。研究人員報告說:“在這兩個任務中,我們看到 LLM 僅基於元提示中提供的最佳化軌跡在小規模問題上正確捕捉到最佳化方向。”

最佳化 LLM 的提示

實驗表明,提示工程可以極大地影響模型的輸出。例如,在提示中新增“讓我們逐步思考”這句話可以引導模型進行一定程度的推理,使其概述解決問題所需的步驟。這通常會導致更準確的結果。然而重要的是記住,這並不意味著 LLM 具有人類般的推理能力。它們的響應高度依賴於提示的格式,而語義上相似的提示可能會產生截然不同的結果。DeepMind 的研究人員寫道:“最優的提示格式可能是模型特定和任務特定的。”

OPRO 的真正潛力在於它有助於最佳化 LLM 的提示,如 OpenAI 的 ChatGPT 和 Google 的 PaLM。它可以引導這些模型找到最佳提示,以最大程度地提高任務準確性。研究人員寫道:“OPRO 使 LLM 能夠逐步生成新的提示,透過最佳化過程提高任務準確性,其中初始提示具有較低的任務準確性。”

結論

OPRO 提供了一種系統化的方法來探索可能的 LLM 提示空間,並找到最適合特定型別問題的提示。當前尚不清楚它在實際應用中的表現如何,但這項研究可以為我們理解 LLM 工作方式的過程中邁出一步。

Optimization-DeepMind,AI,大型語言模型,最佳化,自身提示
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。