強化学習
導入
編集探索
編集制御学習アルゴリズム
編集たとえ探索の問題を無視して、状態が観測可能であっても(以下は仮定)、過去の経験を使用して、どの行動がより高い累積報酬につながるかを見つけ出すという問題が残される。
最適性の基準
編集方策
編集エージェントの行動(action)の選択は、方策(policy)と呼ばれる写像としてモデル化することができる。
方策の写像は、状態 において行動 を選択する確率を与える[10]:61。決定論的な方策(全ての確率が 0 または 1)を考えても良い。
状態価値関数
編集総当たり法
編集価値関数法
編集モンテカルロ法
編集時間差分法
編集関数近似法
編集直接方策探索
編集モデルベース・アルゴリズム
編集理論
編集ほとんどのアルゴリズムの漸近的挙動と有限標本挙動の両方がよく理解されている。(探索問題に対処する)優れたオンライン性能が証明されたアルゴリズムも知られている。
MDPの効率的な探索については、Burnetas and Katehakis(1997)で述べられている[8]。また、多くのアルゴリズムで有限時間性能の限界が見られるが、これらの限界はかなり緩いと予想されるため、相対的な価値と限界をより深く理解するために、さらなる研究が必要である。
インクリメンタルアルゴリズムについては、漸近的収束の問題が解決された[要説明]。時間差分に基づくアルゴリズムでは、従来よりも広い条件の下で収束するようになった(たとえば、任意の滑らかな関数近似と併用する場合)。
研究
編集強化学習アルゴリズムの比較
編集アルゴリズム | 説明 | 方策 | 行動空間 | 状態空間 | 演算 |
---|---|---|---|---|---|
モンテカルロ法 | 逐次訪問モンテカルロ法 | いずれでも | 離散 | 離散 | 状態価値もしくは行動価値のサンプル平均 |
TD学習 | 状態-行動-報酬-状態 | 方策外 | 離散 | 離散 | 状態価値 |
Q学習 | 状態-行動-報酬-状態 | 方策外 | 離散 | 離散 | 行動価値 |
SARSA | 状態-行動-報酬-状態-行動 | 方策内 | 離散 | 離散 | 行動価値 |
Q学習(λ) | 状態-行動-報酬-適格性トレースを含む状態 | 方策外 | 離散 | 離散 | 行動価値 |
SARSA(λ) | 状態-行動-報酬-状態-行動と適格性トレース | 方策内 | 離散 | 離散 | 行動価値 |
DQN | ディープQネットワーク | 方策外 | 離散 | 連続 | 行動価値 |
DDPG | ディープ決定論的方策勾配 | 方策外 | 連続 | 連続 | 行動価値 |
A3C | 非同期アドバンテージ・アクター・クリティック・アルゴリズム | 方策内 | 連続 | 連続 | アドバンテージ (=行動価値 - 状態価値) |
NAF | 正規化アドバンテージ関数を使用したQ学習 | 方策外 | 連続 | 連続 | アドバンテージ |
TRPO | 信頼領域方策最適化 | 方策内 | 連続 | 連続 | アドバンテージ |
PPO | 近位方策最適化 | 方策内 | 連続 | 連続 | アドバンテージ |
TD3 | ツイン遅延ディープ決定論方策勾配法 | 方策外 | 連続 | 連続 | 行動価値 |
SAC | ソフト・アクター・クリティック | 方策外 | 連続 | 連続 | アドバンテージ |
連想強化学習
編集連想強化学習タスク(associative reinforcement learning)は、確率的学習オートマトンタスクと教師あり学習パターン分類タスクの側面をあわせ持っている。連想強化学習タスクでは、学習システムは閉ループで環境と相互作用する[36]。
深層強化学習
編集敵対的深層強化学習
編集敵対的深層強化学習(adversarial deep reinforcement learning)は、学習された方策の脆弱性(ぜいじゃくせい)に焦点を当てた強化学習の活発な研究分野である。この研究領域では、当初、強化学習方策がわずかな敵対的操作の影響を受けやすいことがいくつかの研究で示されていた[39][40][41]。これらの脆弱性を克服するためにいくつか方法が提案されているが、最新の研究では、これらの提案された解決策は、深層強化学習方策の現在の脆弱性を正確に表すには程遠いことが示された[42]。
ファジィ強化学習
編集強化学習にファジィ推論を導入することで[43]、連続空間におけるファジィルールで状態-行動価値関数を近似することが可能になる。ファジィルールの IF - THEN 形式は、自然言語に近い形式で結果を表現するのに適している。ファジィルール補間によるファジィ強化学習(fuzzy reinforcement learning、FRL)への拡張により[44]、サイズが縮小されたスパース・ファジィ・ルールベースを使用して、基本ルール(最も重要な状態-行動価値)に重点を置くことができるようになった。
逆強化学習
編集逆強化学習(inverse reinforcement learning、IRL)では報酬関数が与えられない。その代わり、専門家が観察した行動から報酬関数を推測する。このアイディアは観察された行動を模倣することであり、多くの場合、最適または最適に近い行動となる[45]。
安全な強化学習
編集安全な強化学習(safe reinforcement learning、SRL)とは、システムの訓練や配置の過程で、その合理的な性能を確保し安全制約を尊重することが重要な問題において、期待収益を最大化する方策を学習する過程と定義することができる[46]。
参考項目
編集脚注
編集推薦文献
編集- Annaswamy, Anuradha M. (3 May 2023). “Adaptive Control and Intersections with Reinforcement Learning” (英語). Annual Review of Control, Robotics, and Autonomous Systems 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144 .
- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). “Near-optimal regret bounds for reinforcement learning”. Journal of Machine Learning Research 11: 1563–1600 .
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071.
- Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 ed.). MIT Press. ISBN 978-0-262-03924-6
- Sutton, Richard S. (1988). “Learning to predict by the method of temporal differences”. Machine Learning 3: 9–44. doi:10.1007/BF00115009 .
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. pp. 1031–1038. 2010年7月14日時点のオリジナル (PDF)よりアーカイブ。
外部リンク
編集- Reinforcement Learning Repository
- Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
- Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
- Real-world reinforcement learning experiments Archived 2018-10-08 at the Wayback Machine. at Delft University of Technology
- Stanford University Andrew Ng Lecture on Reinforcement Learning
- Dissecting Reinforcement Learning Series of blog post on RL with Python code
- A (Long) Peek into Reinforcement Learning
- Reinforcement Learning (英語) - スカラーペディア百科事典「強化学習」の項目。
- 強化学習とは? 木村 元ら
- 強化学習FAQ Suttonの強化学習FAQ(英語)の日本語訳