
新的「強盜」演算法利用光線來進行更好的下注
2023 年 8 月 21 日,Intelligent Computing
背景介紹及研究目的
如何最大化拉霸機的贏取?這是「多臂強盜問題」的靈感所在,這是強化學習中一個常見的任務,其中「代理人」為了獲得獎勵而做出選擇。最近,由東京大學的新川博昭(Hiroaki Shinkawa)領導的國際研究團隊開發了一個擴充套件的光子強化學習方案,從靜態的強盜問題轉向更具挑戰性的動態環境。這項研究發表在 Intelligent Computing 上。
研究方法及結果
該方案的成功依賴於增強學習質量的光子系統和支援演算法。作者們提出了一種「潛在光子實現」,並開發了一種修改後的強盜 Q 學習演算法,透過數值模擬取證了其有效性。他們還在並行架構中測試了他們的演算法,其中多個代理人同時操作,並發現加速並行學習過程的關鍵是透過利用光子的量子幹涉來避免衝突決策。儘管在這個領域中使用光子的量子幹涉並不新鮮,但作者們認為這項研究是「首次將光子的協同決策概念與 Q 學習相結合,並應用於動態環境」。
對強化學習和強盜問題的影響
強化學習問題通常設定在一個隨著代理人的行動而變化的動態環境中,因此比強盜問題中的靜態環境更複雜。這項研究以格子世界為目標,這是一個包含各種獎勵的單元格集合。每個代理人可以上下左右移動,並根據其當前的移動和位置獲得獎勵。在這個環境中,代理人的下一步移動完全由其當前的移動和位置決定。
這項研究中的數值模擬使用一個 5×5 個單元格的格子,每個單元格被稱為「狀態」,代理人每個時間步的每個移動被稱為「行動」,決定代理人在每個狀態下選擇某個行動的規則被稱為「策略」。這個決策過程被設計為一個強盜問題的情境,其中將每個狀態-行動對視為拉霸機,而 Q 值的變化(狀態-行動對的值)被視為獎勵。與基本的 Q 學習演算法不同,基本的 Q 學習演算法通常專注於找到最優的路徑以最大化獎勵,而修改後的強盜 Q 學習演算法的目標是在整個環境中高效而準確地學習每個狀態-行動對的最優 Q 值。因此對於一個代理人來說在「利用」帶有較高值的熟悉對中以加快學習速度並「探索」未經探索的對中以尋求可能更高價值之間保持良好的平衡至關重要。這項研究使用了一種在此類平衡中表現出色的流行模型——軟最大值(Softmax) 演算法作為策略。
未來展望
作者們未來的首要任務是設計一個支援至少三個代理人進行無衝突決策的光子系統,希望這將有助於避免代理人做出衝突決策。與此同時他們計劃開發允許代理人持續行動的演算法,並將他們的強盜 Q 學習演算法應用於更複雜的強化學習任務。
這項研究對於光子實現的強化學習演算法的應用以及在解決更具挑戰性的動態環境中的強化學習問題方面具有重要意義。未來,這項研究可能為開發更高效的算法和光子系統提供啟示,並且可以應用於各種實際應用領域,從遊戲智慧到自動駕駛等。
原文連結:https://techxplore.com/news/2023-08-bandit-algorithm.html
延伸閱讀
- OpenAI 計劃將 Sora 影片生成器整合至 ChatGPT,開啟創意新視界!
- 「Inception 首度曝光!全新 AI 模型顛覆科技界!」
- 現代新推出的特斯拉充電介面到底缺了什麼?
- 德州迎來新一波自駕計程車,Archer 獲得 3 億美元打造防禦任務!
- GoogleI/O 開發者大會即將來襲!5 月 20-21 日不容錯過的科技盛宴!
- "揭密 2025 CES:你錯過的科技盛事亮點一覽!"
- 博世推出可透過 APP 鎖定的電動腳踏車電池,抵禦盜竊新對策!
- 「Electra 揭曉廉價潔淨鐵淨化新技術,獲得 2.57 億美元資金助力發展!」
- CES 2025 前瞻:科技界的年度盛事將帶來哪些驚奇?
- 探索全新 OpenAI Sora 介面的震撼魅力!