強化学習

状態を観測して取るべき行動を決定する問題を扱う機械学習の一種

: reinforcement learningRL3

[1]

使MDP[2]MDPMDPTDQ

導入

編集
 
強化学習シナリオの典型的な構成: エージェントは環境内で行動をおこし、それは報酬や状態の表現に解釈され、エージェントにフィードバックされる。

approximate dynamic programmingneuro-dynamic programming

Markov decision processMDP

 

 

          

          immediate reward

reward functionhardwired[3][4]

AI t      1      transition        ,   

MDPfull observabilitypartial observabilitypartially observable Markov decision process使34

regret

[5][6]AlphaGo

2使使2



[7]



21

探索

編集

explorationexploitationBurnetas and Katehakis1997MDP[8]

MDP

  - -greedy          調[9]

制御学習アルゴリズム

編集

たとえ探索の問題を無視して、状態が観測可能であっても(以下は仮定)、過去の経験を使用して、どの行動がより高い累積報酬につながるかを見つけ出すという問題が残される。

最適性の基準

編集

方策

編集

エージェントの行動(action)の選択は、方策(policy)と呼ばれる写像としてモデル化することができる。

 
 

方策の写像は、状態   において行動   を選択する確率を与える[10]:61。決定論的な方策(全ての確率が 0 または 1)を考えても良い。

状態価値関数

編集

state-value function           expected discounted return[10]:60

 

   discounted returnrewarddiscount rate  discounted reward

 

            使

MDPstationary policiesstationarydeterministic stationary policy

総当たり法

編集

brute force method2







2

価値関数法

編集

value function methodson-policyoff-policy



   state-value

 

              

 



optimal          

action-value         -   

 

            

MDP        action-value functionoptimal action-value function   

MDP2     ( ) MDP使

モンテカルロ法

編集

Monte Carlo methods使policy evaluationpolicy improvement2使   -     MDP: episodic-           

  greedy policy      



(一)

(二)-

(三)high variance

(四)episodic problems

(五)MDP使


時間差分法

編集

generalized policy iterationactor-critic methods

2-3recursive Bellman equationtemporal difference learningTD[11][12]

TDleast-squares temporal difference method[13]24

TDTD      TD

関数近似法

編集

5function approximation methodslinear function approximation-   -   action-value     

 

-調

QQ-learning algorithm[14]Q使Q[15]

compatible function approximation method使

直接方策探索

編集

2

使policy gradient method                 使[16]REINFORCE[17]



1970actor-critic method[18]

使[19]

モデルベース・アルゴリズム

編集

Dyna[20][21]

使[22] (en:) 

理論

編集

ほとんどのアルゴリズムの漸近的挙動と有限標本挙動の両方がよく理解されている。(探索問題に対処する)優れたオンライン性能が証明されたアルゴリズムも知られている。

MDPの効率的な探索については、Burnetas and Katehakis(1997)で述べられている[8]。また、多くのアルゴリズムで有限時間性能の限界が見られるが、これらの限界はかなり緩いと予想されるため、相対的な価値と限界をより深く理解するために、さらなる研究が必要である。

インクリメンタルアルゴリズムについては、漸近的収束の問題が解決された[要説明]。時間差分に基づくアルゴリズムでは、従来よりも広い条件の下で収束するようになった(たとえば、任意の滑らかな関数近似と併用する場合)。

研究

編集

 







[23]

[24]

MDP

[25]



-- ()



[26]

[27]



[28][29][30]

predictive state representationPOMDPPSR使

[31][32][33]



[34]

[35]

TD


強化学習アルゴリズムの比較

編集
アルゴリズム 説明 方策 行動空間 状態空間 演算
モンテカルロ法 逐次訪問モンテカルロ法 いずれでも 離散 離散 状態価値もしくは行動価値のサンプル平均
TD学習 状態-行動-報酬-状態 方策外 離散 離散 状態価値
Q学習 状態-行動-報酬-状態 方策外 離散 離散 行動価値
SARSA 状態-行動-報酬-状態-行動 方策内 離散 離散 行動価値
Q学習(λ) 状態-行動-報酬-適格性トレースを含む状態 方策外 離散 離散 行動価値
SARSA(λ) 状態-行動-報酬-状態-行動と適格性トレース 方策内 離散 離散 行動価値
DQN ディープQネットワーク 方策外 離散 連続 行動価値
DDPG ディープ決定論的方策勾配 方策外 連続 連続 行動価値
A3C 非同期アドバンテージ・アクター・クリティック・アルゴリズム 方策内 連続 連続 アドバンテージ
(=行動価値 - 状態価値)
NAF 正規化アドバンテージ関数を使用したQ学習 方策外 連続 連続 アドバンテージ
TRPO 信頼領域方策最適化 方策内 連続 連続 アドバンテージ
PPO英語版 近位方策最適化 方策内 連続 連続 アドバンテージ
TD3 ツイン遅延ディープ決定論方策勾配法 方策外 連続 連続 行動価値
SAC ソフト・アクター・クリティック 方策外 連続 連続 アドバンテージ

連想強化学習

編集

連想強化学習タスク(associative reinforcement learning)は、確率的学習オートマトンタスクと教師あり学習パターン分類タスクの側面をあわせ持っている。連想強化学習タスクでは、学習システムは閉ループで環境と相互作用する[36]

深層強化学習

編集

deep reinforcement learning (en:) 使[37]Google DeepMindAtari 2600Deep Q-Network[38]

敵対的深層強化学習

編集

敵対的深層強化学習(adversarial deep reinforcement learning)は、学習された方策の脆弱性(ぜいじゃくせい)に焦点を当てた強化学習の活発な研究分野である。この研究領域では、当初、強化学習方策がわずかな敵対的操作の影響を受けやすいことがいくつかの研究で示されていた[39][40][41]。これらの脆弱性を克服するためにいくつか方法が提案されているが、最新の研究では、これらの提案された解決策は、深層強化学習方策の現在の脆弱性を正確に表すには程遠いことが示された[42]

ファジィ強化学習

編集

強化学習にファジィ推論を導入することで[43]、連続空間におけるファジィルール英語版で状態-行動価値関数を近似することが可能になる。ファジィルールの IF - THEN 形式は、自然言語に近い形式で結果を表現するのに適している。ファジィルール補間によるファジィ強化学習(fuzzy reinforcement learning、FRL)への拡張により[44]、サイズが縮小されたスパース・ファジィ・ルールベースを使用して、基本ルール(最も重要な状態-行動価値)に重点を置くことができるようになった。

逆強化学習

編集

逆強化学習(inverse reinforcement learning、IRL)では報酬関数が与えられない。その代わり、専門家が観察した行動から報酬関数を推測する。このアイディアは観察された行動を模倣することであり、多くの場合、最適または最適に近い行動となる[45]

安全な強化学習

編集

安全な強化学習(safe reinforcement learning、SRL)とは、システムの訓練や配置の過程で、その合理的な性能を確保し安全制約を尊重することが重要な問題において、期待収益を最大化する方策を学習する過程と定義することができる[46]

参考項目

編集

脚注

編集


(一)^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research 4: 237285. arXiv:cs/9605103. doi:10.1613/jair.301. 2001-11-20. http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html. 

(二)^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 342. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6 

(三)^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4 

(四)^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). Neural Basis of Reinforcement Learning and Decision Making. Annual Review of Neuroscience 35(1): 287308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3490621/. 

(五)^ Xie, Zhaoming, et al. "ALLSTEPS: Curriculumdriven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.

(六)^ Sutton & Barto 1998, Chapter 11.

(七)^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7. https://www.springer.com/mathematics/applications/book/978-1-4020-7454-7 

(八)^ abBurnetas, Apostolos N.; Katehakis, Michael N. (1997), Optimal adaptive policies for Markov Decision Processes, Mathematics of Operations Research 22: 222255, doi:10.1287/moor.22.1.222 

(九)^ Tokic, Michel; Palm, Günther (2011), Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335346, ISBN 978-3-642-24455-1, http://www.tokic.com/www/tokicm/publikationen/papers/KI2011.pdf 

(十)^ abReinforcement learning: An introduction. 2023512

(11)^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.

(12)^ Sutton & Barto 1998, §6. Temporal-Difference Learning.

(13)^ Bradtke, Steven J.; Barto, Andrew G. (1996). Learning to predict by the method of temporal differences. Machine Learning 22: 3357. doi:10.1023/A:1018056104778. 

(14)^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). Kings College, Cambridge, UK.

(15)^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities. Entropy 24(8): 1168. Bibcode: 2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9407070/. 

(16)^ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871

(17)^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.

(18)^ Juliani, Arthur (20161217). Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C). Medium. 2018222

(19)^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1142. doi:10.1561/2300000021. hdl:10044/1/12051. http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf 

(20)^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.

(21)^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699

(22)^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.

(23)^ On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment (). cie.acm.org. 20181127

(24)^ Riveret, Regis; Gao, Yang (2019). A probabilistic argumentation framework for reinforcement learning agents (). Autonomous Agents and Multi-Agent Systems 33(12): 216274. doi:10.1007/s10458-019-09404-2. 

(25)^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:2111.08596 [cs.LG]

(26)^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 36823690. arXiv:1604.06057. Bibcode: 2016arXiv160406057K. ISBN 978-1-5108-3881-9. http://dl.acm.org/citation.cfm?id=3157382.3157509. 

(27)^ Reinforcement Learning / Successes of Reinforcement Learning. umichrl.pbworks.com. 201786

(28)^ Quested, Tony. Smartphones get smarter with Essex innovation. Business Weekly. 2021617

(29)^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 17281733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. https://ieeexplore.ieee.org/document/9116294. 

(30)^ Williams, Rhiannon (2020721). Future smartphones 'will prolong their own battery life by monitoring owners' behaviour' (). i. 2021617

(31)^ Kaplan, F.; Oudeyer, P. (2004). Maximizing learning progress: an internal reward system for development. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6 

(32)^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). Keep your options open: an information-based driving principle for sensorimotor systems. PLOS ONE 3(12): e4018. Bibcode: 2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2607028/. 

(33)^ Barto, A. G. (2013). Intrinsic motivation and reinforcement learning. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 1747. https://people.cs.umass.edu/~barto/IMCleVer-chapter-totypeset2.pdf 

(34)^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks. The Journal of Machine Learning in Finance 1. SSRN 3374766. 

(35)^ George Karimpanal, Thommen; Bouffanais, Roland (2019). Self-organizing maps for storage and transfer of knowledge in reinforcement learning (). Adaptive Behavior 27(2): 111126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. 

(36)^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X 

(37)^ Francois-Lavet, Vincent (2018). An Introduction to Deep Reinforcement Learning. Foundations and Trends in Machine Learning 11(34): 219354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071. 

(38)^ Mnih, Volodymyr (2015). Human-level control through deep reinforcement learning. Nature 518 (7540): 529533. Bibcode: 2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. https://www.semanticscholar.org/paper/e0e9a94c4a6ba219e768b4e59f72c18f0a22e23d. 

(39)^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). Explaining and Harnessing Adversarial Examples. International Conference on Learning Representations. arXiv:1412.6572. 

(40)^ Behzadan, Vahid; Munir, Arslan (2017). Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. 

(41)^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905. http://worldcat.org/oclc/1106256905 

(42)^ Korkmaz, Ezgi (2022). Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36(7): 72297238. doi:10.1609/aaai.v36i7.20684. 

(43)^ Berenji, H.R. (1994). Fuzzy Q-learning: a new approach for fuzzy dynamic programming. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. https://ieeexplore.ieee.org/document/343737. 

(44)^ Vincze, David (2017). Fuzzy rule interpolation and reinforcement learning. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf 

(45)^ Ng, A. Y.; Russell, S. J. (2000). Algorithms for Inverse Reinforcement Learning. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663670. ISBN 1-55860-707-2. https://ai.stanford.edu/~ang/papers/icml00-irl.pdf 

(46)^ García, Javier; Fernández, Fernando (1 January 2015). A comprehensive survey on safe reinforcement learning. The Journal of Machine Learning Research 16(1): 14371480. https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf. 

推薦文献

編集

外部リンク

編集