強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ
数年悩まされているが解決できていない問題。解決に向けて雑なメモ。固まるとGUIからの強制終了も効かずひたすら待つしかないのでかなりのストレス。 症状 MacOSのGoogle Chromeで下記のようなサイトで文字入力を行おうとするとレインボーカーソル状態のまま数秒から数十秒固まりブラウザが操作できなくなる コピペ操作でも起こる レインボーカーソルは表示されない場合もある 動き出すとタイプしていたキーが一気に入力されるような感じ 事象が発生すると別ウィンドウのGoogle Chromeも固まる Google Chrome以外のプロセスには影響してなさそう 常に発生するわけでもなく軽い時もある。ただ毎日は発生している 何をすると一時的にでも解消するのかは不明 Mac再起動直後は発生しない気がする Chrome再起動直後は発生しない気がする 発生するサイトと箇所 どのサイトとかは関係ない気もす
セガサターンのマルチコントローラー(マルコン)をUSB化するための拡張ユニットを作りました。 マルコンの標準ユニットと付け替えることで、マルコンがUSBゲームパッド化するっていうイカしたやつです。 セガが「拡張ユニット発売予定」と言ってから20年以上の時を経て、やっと現実のものとなりました。 マルコンの説明書に拡張ユニット発売するって書いてた 出典: https://segaretro.org/images/9/9e/MultiControllerSaturnJPManual.pdf 作ったもの なんで作ったか こんな感じの仕様にします マルコンの信号仕様調査 ハードウェア編 回路図を書いてみる 基板図を書いてみる 基板を製造します 部品を実装してみる シェルも作ることにする 回路と基板を設計しなおす シェルと基板を組み合わせる ソフトウェア編 プログラムを書く 動かしてみる 最後に 作っ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く