![](https://cdn-ak-scissors.b.st-hatena.com/image/square/ca8ebce88f8a50de73de64efc935b210220d88b4/height=288;version=1;width=512/https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fthumb%2Ff%2Ffe%2FKernel_Machine.svg%2F1200px-Kernel_Machine.svg.png)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
いまの話題をアプリでチェック!
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習 - Wikipedia
強化学習︵きょうかがくしゅう、英: reinforcement learning、RL︶は、ある環境内における知的エージェ...要を表示
強化学習︵きょうかがくしゅう、英: reinforcement learning、RL︶は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益︵累積報酬︶を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。 強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。 この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程︵MDP︶として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの
2019/06/12 リンク