網路議題

新技術:「恢恢奇將」演算法利用光線進行更佳的預測

新的「強盜」演算法利用光線來進行更好的下注 2023 年 8 月 21 日,Intelligent Computing 背景介紹及研究目的如何最大化拉霸機的贏取?這是「多臂強盜問題」的靈感所在,這是強化學習中一個常見的任務,其中「代理人」為了獲得獎勵而做出選擇。最近,由東京大學的新川博昭(Hiroaki .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

新技術:「恢恢奇將」演算法利用光線進行更佳的預測

新的「強盜」演算法利用光線來進行更好的下注

2023 年 8 月 21 日,Intelligent Computing

背景介紹及研究目的

如何最大化拉霸機的贏取?這是「多臂強盜問題」的靈感所在,這是強化學習中一個常見的任務,其中「代理人」為了獲得獎勵而做出選擇。最近,由東京大學的新川博昭(Hiroaki Shinkawa)領導的國際研究團隊開發了一個擴充套件的光子強化學習方案,從靜態的強盜問題轉向更具挑戰性的動態環境。這項研究發表在 Intelligent Computing 上。

研究方法及結果

該方案的成功依賴於增強學習質量的光子系統和支援演算法。作者們提出了一種「潛在光子實現」,並開發了一種修改後的強盜 Q 學習演算法,透過數值模擬取證了其有效性。他們還在並行架構中測試了他們的演算法,其中多個代理人同時操作,並發現加速並行學習過程的關鍵是透過利用光子的量子幹涉來避免衝突決策。儘管在這個領域中使用光子的量子幹涉並不新鮮,但作者們認為這項研究是「首次將光子的協同決策概念與 Q 學習相結合,並應用於動態環境」。

對強化學習和強盜問題的影響

強化學習問題通常設定在一個隨著代理人的行動而變化的動態環境中,因此比強盜問題中的靜態環境更複雜。這項研究以格子世界為目標,這是一個包含各種獎勵的單元格集合。每個代理人可以上下左右移動,並根據其當前的移動和位置獲得獎勵。在這個環境中,代理人的下一步移動完全由其當前的移動和位置決定。

這項研究中的數值模擬使用一個 5×5 個單元格的格子,每個單元格被稱為「狀態」,代理人每個時間步的每個移動被稱為「行動」,決定代理人在每個狀態下選擇某個行動的規則被稱為「策略」。這個決策過程被設計為一個強盜問題的情境,其中將每個狀態-行動對視為拉霸機,而 Q 值的變化(狀態-行動對的值)被視為獎勵。與基本的 Q 學習演算法不同,基本的 Q 學習演算法通常專注於找到最優的路徑以最大化獎勵,而修改後的強盜 Q 學習演算法的目標是在整個環境中高效而準確地學習每個狀態-行動對的最優 Q 值。因此對於一個代理人來說在「利用」帶有較高值的熟悉對中以加快學習速度並「探索」未經探索的對中以尋求可能更高價值之間保持良好的平衡至關重要。這項研究使用了一種在此類平衡中表現出色的流行模型——軟最大值(Softmax) 演算法作為策略。

未來展望

作者們未來的首要任務是設計一個支援至少三個代理人進行無衝突決策的光子系統,希望這將有助於避免代理人做出衝突決策。與此同時他們計劃開發允許代理人持續行動的演算法,並將他們的強盜 Q 學習演算法應用於更複雜的強化學習任務。

這項研究對於光子實現的強化學習演算法的應用以及在解決更具挑戰性的動態環境中的強化學習問題方面具有重要意義。未來,這項研究可能為開發更高效的算法和光子系統提供啟示,並且可以應用於各種實際應用領域,從遊戲智慧到自動駕駛等。

原文連結:https://techxplore.com/news/2023-08-bandit-algorithm.html

Algorithm-光線預測,恢恢奇將演算法,新技術
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。