
人工智慧大型語言模型(LLM)在模擬人類行為方面的潛力
研究背景
斯坦福大學的研究人員最近進行的一項研究表明,利用適當的設計,人工智慧大型語言模型(LLM)可以以動態和逼真的方式模擬人類行為。該研究名為《生成代理人:人類行為的互動模擬》,探索了生成模型在建立具有互動能力的人工智慧代理人時的潛力。這些代理人能夠模擬人們在日常生活中的行為,包括平凡的任務和複雜的決策過程。而且當這些代理人結合在一起時,它們能夠模擬由大量人口互動產生的更複雜的社會行為。這項工作開啟了許多可能性,尤其在模擬人口動態、提供有價值的洞察社會行為和互動方面。
生成代理人的虛擬環境
在這項研究中,研究人員在一個名為 "Smallville "的沙盒遊戲環境中模擬了生成代理人。該環境由各種物體組成,包括自助餐、學校、酒吧等等。25 個生成代理人由 LLM 提供支援。LLM 以包含代理人行為、職業、喜好、記憶和與其他代理人的關係的詳細描述為提示開始操作。LLM 的輸出結果即為代理人的行為。代理人透過行動與他們的環境進行互動。起初,他們以自然語言生成一個行動語句,例如 "Isabella 正在喝咖啡"。然後,這個語句被轉化為在 Smallville 中的具體動作。此外代理人透過自然語言對話相互溝通。他們的對話受到他們之前的記憶和過去的互動的影響。使用者也可以透過旁白的聲音與代理人進行互動,改變環境的狀態或直接控制代理人。這種互動設計旨在創造一個具有多種可能性的動態環境。
記憶和反思
Smallville 環境中的每個代理人都配備了一個記憶流,這是一個包含代理人以自然語言記錄的經驗的全面資料庫。這個記憶流在代理人的行為中起著關鍵作用。對於每個行動,代理人捕獲相關的記憶記錄來幫助其進行規劃。例如,如果一個代理人第二次遇到另一個代理人,它會捕獲與該代理人的過去互動的記錄。這使得代理人能夠記住以前的對話或跟進需要一起完成的任務。然而記憶的捕獲帶來了一個重要挑戰。隨著模擬的時間增加,代理人的記憶流變得越來越長。將整個記憶流放入 LLM 的上下文中可能會分散注意力。而一旦記憶流變得太長,就無法放入 LLM 的上下文視窗中。因此對於與 LLM 的每次互動,代理人必須從記憶流中捕獲最相關的片段,並將其作為上下文提供給模型。為理解決這個問題,研究人員設計了一個捕獲函數,用於衡量每個記憶片段對當前情境的相關性。每個記憶的相關性是透過將其嵌入與當前情境的嵌入進行比較來衡量的(嵌入是表示文字不同含義的數值,用於相似性搜尋)。記憶的最近性也很重要,也就是說,最近的記憶會給予更高的相關性。此外研究人員還設計了一個定期將記憶流的部分內容總結為更高級的抽象思想(稱為“反思”)。這些反思相互堆疊,為代理人的個性和喜好提供更細緻的影象,並增強未來行動的記憶捕獲能力。記憶和反思使得人工智慧系統能夠為 LLM 建立豐富的提示,然後利用它來規劃每個代理人的行動。
代理人的規劃與行動
規劃是這個專案中另一個引人注目的方面。研究人員不得不設計一個能讓代理人進行直接行動的系統,同時也能夠為長期目標進行規劃。為了實現這一點,他們採用了層次化的規劃方法。模型首先接收到代理人狀態的摘要,然後被提示為長期目標生成高級別的計劃。然後,它遞迴地進行每一步,並生成更詳細的行動,首先在小時的計劃中,然後在 5-15 分鐘的任務中。隨著環境的變化和與其他代理人的互動,代理人也會更新他們的計劃。這種動態的規劃方法確保了代理人能夠適應環境並以逼真而可信的方式與之互動。
模擬執行的結果
每個代理人都從一些基本知識、日常例行事項和目標開始。他們計劃並實施這些目標,並相互互動。透過這些互動,代理人可以彼此傳遞訊息。隨著新訊息在人口中傳播,社區的行為也發生變化。代理人會根據他們對其他代理人行為的認識而改變或調整他們的計劃和目標。研究人員的實驗顯示,這些生成的代理人在沒有明確命令的情況下學會了彼此協調。例如,其中一個代理人最初的目標是舉辦情人節派對。這個訊息最終傳播到其他代理人,有幾個代理人最終參加了派對。儘管這項研究結果令人印象深刻,但我們也必須承認這種技術的局限性。生成的代理人在模擬人類行為方面超越了其他基於 LLM 的方法,但有時在記憶捕獲方面會出錯。它們可能會忽略相關的記憶,或者相反地,在記憶中新增不存在的細節。這可能會導致代理人的行為和互動不一致。此外研究人員還注意到代理人行為中的一個意外怪癖:他們過於禮貌和合作。雖然這些特點在人工智慧助手中可能是可取的,但並不準確地反映出人類行為的全部光譜,其中包括衝突和分歧。
人類行為的模擬與社會模型的應用
這項研究在研究界引起了極大的興趣。斯坦福的研究人員最近公開了他們虛擬環境和生成代理人的源程式碼。這使得其他研究人員能夠在此基礎上進一步研究,著名的風險投資公司 Andreessen Horowitz (a16z)也在這個環境中建立了他們自己的版本。虛擬世界的 Smallville 代理人在娛樂方面有趣,但研究人員認為他們的工作具有深遠的實際應用。其中一個應用是原型設計諸如社交網路等大規模使用者產品中的動態。研究人員希望這些生成模型可以幫助預測和減輕負面結果,例如虛假訊息的傳播或對網路霸凌的擴散。透過建立一個多樣化的代理人群體並觀察它們在產品內容中的互動,研究人員可以研究新興的行為模式,無論是積極的還是消極的。這些代理人也可以用於實驗不同的假設情景,模擬不同的政策和行為修改如何改變結果。這個概念形成了社會模擬的基礎。然而生成代理人的潛力也伴隨著風險。它們可以用於建立逼真地模模擬人的機器人,從而可能放大蓄意傳播不實訊息等惡意活動。為了對抗這一點,研究人員建議對代理人的行為進行審計記錄,以提供透明度和負責任性。
對未來的展望
研究人員寫道:“展望未來,我們認為生成代理人可以在許多互動應用中扮演角色,從設計工具到社會計算系統到沉浸式環境。”生成代理人的潛在應用非常廣泛,但也需要應對其中的風險和挑戰。未來的研究需要更深入地探索記憶捕獲的方法和反思的效果,以提高生成代理人在模擬人類行為方面的準確性和逼真度。與此同時必須密切關注人工智慧代理人在社會領域中的潛在影響,並制定相應的政策和監管框架以確保其正確使用和防止惡意濫用。