研究人員運用強化學習訓練 AI 戰勝頂尖街頭霸王玩家

研究人員透過強化學習訓練人工智慧擊敗街頭霸王冠軍玩家影響運動設計的新時代新加坡科技與設計大學（SUTD）的研究人員成功地將強化學習應用於一個影片遊戲問題中。他們創造了一種基於在象棋和圍棋等棋類遊戲中被證實有效的方法的新型複雜動作設計軟體。在單次測試中，新方法的動作表現優於頂尖人類玩家。這些研究結果可 .... (往下繼續閱讀)

by 程宇肖
2023/10/6
7 分鐘閱讀時間

A- A A+

文章目錄

研究人員透過強化學習訓練人工智慧擊敗街頭霸王冠軍玩家

影響運動設計的新時代

新加坡科技與設計大學（SUTD）的研究人員成功地將強化學習應用於一個影片遊戲問題中。他們創造了一種基於在象棋和圍棋等棋類遊戲中被證實有效的方法的新型複雜動作設計軟體。在單次測試中，新方法的動作表現優於頂尖人類玩家。這些研究結果可能對機器人和自動化產生影響，開創運動設計的新時代。研究團隊在《Advanced Intelligent Systems》上發表了一篇名為「一種相變電阻式強化學習，以快速超越街頭霸王冠軍玩家」的文章。

強化學習：從棋類遊戲到動作設計

強化學習是一種機器學習方法，其中計算機程式透過嘗試各種行動並獲得反饋來學習做出決策。例如，這個算法可以透過在棋盤上測試數百萬種可能的著法，並根據成功或失敗進行學習，學會下棋。該程式旨在幫助算法從經驗中學習並隨著時間改進其決策能力。研究團隊為計算機提供了數百萬種初始動作，創造了一個用於動作設計的強化學習程式。然後，該程式以改進每個動作的方式進行多次嘗試，隨機朝著特定目標進行調整。計算機透過調整角色的移動或調整策略來學習如何進行能夠克服內建人工智慧的動作。

具有獨特優勢的動作設計

研究人員的研究重點是創造能夠在短時間內擊敗頂尖人類玩家的新動作。這需要使用衰減算法來建立動作。算法測試揭示了新的人工智慧設計動作的有效性。研究人員指出了許多好的特點，作為衡量設計系統成功程度的標準，例如合理的遊戲禮節、管理不準確的訊息、實現特定的遊戲狀態以及擊敗對手所需的短時間。換句話說，該程式表現出卓越的物理和心理能力，這被稱為有效的動作設計。例如，動作在克服對手方面更加成功，因為用於訓練神經網路的衰減技術比傳統衰減方法需要的訓練步驟更少。

無限潛能的應用

研究人員預見一個未來，這種策略將使他們和其他人能夠建立之前不可能的動作、技能和其他行動。研究人員表示：“技術變得越來越有效，開放的應用領域就越多，包括繼續進行計算機為最佳選手提供競爭任務的進展，比如在撲克、星際爭霸和 Jeopardy 等領域。我們也可能看到高水平的實際比賽來培訓職業選手，發現新的戰術，使影片遊戲更有趣。”新加坡科技與設計大學的 Shao-Xiang Go 和 Yu Jiang 也為這項研究做出了貢獻。

下一個科技和遊戲領域的突破

強化學習在運動科學研究中的應用標誌著人工智慧的新突破。其潛在應用領域眾多，包括更多自主汽車的發展、新型協作機器人和空中無人機的出現。同時這項研究成果還為人們理解和應用人工智慧提供了新的思路。研究人員最終的目標是建立出更加智慧和高效的機器，這些機器能夠為我們的生活帶來更多的便利和創新。總結來說新加坡科技與設計大學的研究團隊透過強化學習訓練人工智慧，使其能夠擊敗頂尖的街頭霸王玩家。這項研究成果可能在運動設計、機器人和自動化等領域產生重大影響。強化學習的應用將透過創造出更多智慧和高效的機器，提升我們的生活質量和科技創新。這也是人工智慧領域的一次重要突破，為未來的研究和應用開啟了新的方向和可能性。原文連結：[https://techxplore.com/news/2023-10-ai-defeat-champion-street-fighter.html](https://techxplore.com/news/2023-10-ai-defeat-champion-street-fighter.html)

GamingorArtificialIntelligenceorStreetFighterorResearchorTraining-強化學習,AI,街頭霸王,研究,訓練,玩家

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集