人間のフィードバックによる強化学習

人間のフィードバックによる強化学習（英: reinforcement learning from human feedback、RLHF）は、AIモデルの出力において「人間の価値基準（人間の好み）」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。

概要

機械学習では、人間のフィードバックによる強化学習︵RLHF︶は、人間のフィードバック︵反応︶から直接に﹁報酬モデル﹂を訓練し、そのモデルを報酬関数として使用して、近位方策最適化︵英語版︶などの最適化アルゴリズムによる強化学習︵RL︶を介してエージェントの方策を最適化する技術である^[1]^[2]。報酬モデルは、特定の出力が良い︵報酬が高い︶か悪い︵報酬が低い︶かを予測するために、最適化される方針に合わせて事前に訓練される。RLHFは、特に報酬関数が疎であったりノイズ︵英語版︶が多い場合に、強化学習エージェントのロバスト性︵堅牢性︶︵英語版︶と探索性を向上できる^[3]。人間のフィードバックは、エージェントの行動の実例をランク付けするよう人間に依頼して収集するのが最も一般的である^[4]^[5]^[6]。これらのランキングは、たとえばイロ・レーティングシステムなどで_、成績をスコア化するために使用することができる^[2]。嗜好判断は広く使用されているが、数値フィードバック、自然言語フィードバック、編集率など、より豊富な情報を提供する別の種類の人間によるフィードバック方法もある^[7]。簡単に言うと、RLHFは、﹁できばえ﹂に関する人間の反応から学習することで、人工知能︵AI︶モデルを訓練するものである。AIモデルが誤った予測や、最適とは言えない行動をとった場合、人間のフィードバックを利用して誤りを修正したり、より良い対応を提案したりすることができる。これによって、モデルは時間の経過とともに学習し、その応答を改善することができる。明確なアルゴリズムによる解決策を定義することは難しいが、AIの出力の品質を人間が容易に判断できるようなタスクにおいて、RLHFが使用される。たとえば、説得力のあるストーリーを生成するタスクの場合、人間はAIが生成したさまざまなストーリーの品質を評価して、AIはそのフィードバックを利用してストーリー生成の技量を向上することができる。 RLHFは、会話エージェント、テキスト要約、自然言語理解など、さまざまな自然言語処理の領域に応用されている^[8]。通常の強化学習では、エージェントは﹁報酬関数﹂に基づいて自らの行動から学習するが、特に人間の価値観や嗜好に関わる複雑なタスクを扱う場合、報酬の定義や測定が難しいことが多いため、自然言語処理タスクに適用するのは難しい。RLHFを使用すると、言語モデルがこのような複雑な価値観に合致した回答を提供したり、より詳細な回答を生成したり、不適切な質問やモデルの知識空間の外にある質問を拒否したりできるようになる^[9]。RLHFで訓練された言語モデルの例としては、OpenAIのChatGPTやその前身であるInstructGPT^[5]^[^10]、およびDeepMindのSparrow︵英語版︶などがある^[11]。RLHFは、ビデオゲームボットの開発など、他の分野にも応用されている。たとえば、OpenAIとDeepMindは、人間の好みに基づいてAtariゲームをプレイするエージェントを訓練した^[12]^[13]。エージェントはテストされた多くの環境で強力な性能を発揮し、しばしば人間の成績を上回った^[14]。

課題と限界

RLHFの主な課題の1つは、教師なし学習と比較して時間とコストがかかるという、人間のフィードバックのスケーラビリティである。また、人間によるフィードバックの品質と一貫性は、タスク、インターフェース、個人的嗜好によっても異なることがある。仮に人間によるフィードバックが実現可能であっても、RLHFモデルは人間によるフィードバックでは捕らえられない望ましくない行動を示したり、報酬モデルの弱点を突いたりする可能性があり、アライメント︵整合性︶とロバスト性︵英語版︶の課題が浮き彫りになる^[15]。 RLHFの有効性は、人間のフィードバックの品質に依存する^[16]。フィードバックが公平性や一貫性を欠いていたり、誤りを含んでいると、AIは間違ったことを学習してしまう可能性があり、これはAIバイアスとして知られている^[17]。また、AIが受け取ったフィードバックに過剰適合してしまうリスクもある。たとえば、特定の層からのフィードバックが多かったり、特定の偏見が反映されたりすると、AIはこうしたフィードバックから過度に一般化することを学習する可能性がある^[18]。機械学習では、過剰適合︵オーバーフィッティング︶とは、AIモデルが訓練データを学習しすぎることを指す。これは、データの本質的なパターンだけでなく、ノイズや異常値も学習してしまうことを意味している。こうして訓練データの特異性に適応しすぎてしまうと、非構造化データ︵未知データや、まだ整理されていない新しいデータ︶に対する性能が低下する^[19]。フィードバックへの過剰適合は、モデルがユーザーのフィードバックに基づいて訓練され、意図された一般的な修正や改善だけでなく、フィードバックに含まれる特殊性、偏向、不必要な意見も学習してしまう場合に起こる^[20]。言い換えれば、モデルは受け取った特定のフィードバックに基づいてその応答を過度に適応させ、その結果、より一般的な文脈や、あるいは異なる文脈において、最適な性能を発揮しない可能性がある。たとえば、あるモデルが、特定のフレーズや俗語を一貫して使用するユーザーからのフィードバックに基づいて訓練され、そのフィードバックにモデルが過剰適合した場合、不適切な文脈でそのフレーズを使い始めるかもしれない。この場合、モデルは訓練データからそのフレーズがよく使われていることを学んだものの、その使い方の文脈的な妥当性を十分に理解しなかった。さらに、AIの報酬が人間のフィードバックにのみ基づいている場合、AIが純粋に性能を向上させる代わりに、より高い報酬を得るためにフィードバックプロセスを不正に操作したり、システムを操作︵英語版︶することを学習する危険性があり、これは報酬関数の欠陥があることを示すものである^[21]。

参考項目

強化学習 - 知的エージェントの学習方法を研究する機械学習の一分野
報酬に基づく選択（英語版） - 進化的アルゴリズムにおいて組み換えの解を選択するための手法

脚注

(一)^ Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). Fine-Tuning Language Models from Human Preferences. arXiv:1909.08593. (二)^ ^a ^b“Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. 2023年3月4日閲覧。 (三)^ MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 August 2017). “Interactive learning from policy-dependent human feedback”. Proceedings of the 34th International Conference on Machine Learning - Volume 70 (JMLR.org): 2285–2294. arXiv:1701.06049. ●Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 April 2018). “Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces”. Proceedings of the AAAI Conference on Artificial Intelligence 32(1). doi:10.1609/aaai.v32i1.11485. ●Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862. (四)^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (31 October 2022) (英語). Training language models to follow instructions with human feedback. arXiv:2203.02155. (五)^ ^a ^b“OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results” (英語). Ars Technica (2022年12月1日). 2023年3月4日閲覧。 (六)^ “Getting stakeholder engagement right in responsible AI”. VentureBeat (2023年2月5日). 2023年3月4日閲覧。 (七)^ Patrick Fernandes, Aman Madaan, Emmy Liu, António Farinhas, Pedro Henrique Martins, Amanda Bertsch, José G. C. de Souza, Shuyan Zhou, Tongshuang Wu, Graham Neubig, André F. T. Martins. "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". arXiv:2305.00955。 (八)^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. ●Nisan, Stiennon; Long, Ouyang; Jeffrey, Wu; Daniel, Ziegler; Ryan, Lowe; Chelsea, Voss; Alec, Radford; Dario, Amodei et al. (2020). “Learning to summarize with human feedback” (英語). Advances in Neural Information Processing Systems 33. (九)^ “Can AI really be protected from text-based attacks?”. TechCrunch (2023年2月24日). 2023年3月4日閲覧。 (十)^ “Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat” (英語). Forbes. 2023年3月4日閲覧。 ●“How OpenAI is trying to make ChatGPT safer and less biased” (英語). MIT Technology Review. 2023年3月4日閲覧。 ●“ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense” (英語). MIT Technology Review. 2023年3月4日閲覧。 (11)^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura et al. (2022). Improving alignment of dialogue agents via targeted human judgements. arXiv:2209.14375. ●“Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI”. VentureBeat (2022年9月23日). 2023年3月4日閲覧。 ●“Building safer dialogue agents” (英語). www.deepmind.com. 2023年3月4日閲覧。 (12)^ “Learning from human preferences”. openai.com. 2023年3月4日閲覧。 (13)^ “Learning through human feedback” (英語). www.deepmind.com. 2023年3月4日閲覧。 (14)^ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). “Deep Reinforcement Learning from Human Preferences”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 302023年3月4日閲覧。. (15)^ “Thoughts on the impact of RLHF research” (英語). 2023年3月4日閲覧。 (16)^ “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. Hugging Face. 2023年7月2日閲覧。 (17)^ Belenguer, Lorenzo (2022年). “AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry”. AI Ethics (18)^ “Training Language Models to Follow Instructions with Human Feedback”. Princeton. 2023年7月2日閲覧。 (19)^ “What is overfitting?”. IBM. 2023年7月2日閲覧。 (20)^ “Understanding deep learning requires rethinking generalization”. International Conference on Learning Representations. 2023年7月2日閲覧。 (21)^ “Faulty reward functions in the wild”. OpenAI. 2023年7月2日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]