人間のフィードバックによる強化学習

人間のフィードバックによる強化学習: reinforcement learning from human feedbackRLHF)は、AIモデルの出力において「人間の価値基準(人間の好み)」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。

概要

編集

RLHF使RL[1][2]RLHF[3]

[4][5][6]使[2]使[7]

RLHFAIAIAIRLHF使AIAI

RLHF[8]RLHF使[9]RLHFOpenAIChatGPTInstructGPT[5][10]DeepMindSparrow[11]RLHFOpenAIDeepMindAtari[12][13][14]

課題と限界

編集

RLHF1RLHF[15]

RLHF[16]AIAI[17]AIAI[18]

AI[19] [20]



使使使使

AIAI[21]

参考項目

編集

脚注

編集


(一)^ Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). Fine-Tuning Language Models from Human Preferences. arXiv:1909.08593. 

(二)^ abIllustrating Reinforcement Learning from Human Feedback (RLHF). huggingface.co. 202334

(三)^ MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 August 2017). Interactive learning from policy-dependent human feedback. Proceedings of the 34th International Conference on Machine Learning - Volume 70 (JMLR.org): 22852294. arXiv:1701.06049. https://dl.acm.org/doi/10.5555/3305890.3305917. 
Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 April 2018). Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces. Proceedings of the AAAI Conference on Artificial Intelligence 32(1). doi:10.1609/aaai.v32i1.11485. 

Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862. 

(四)^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (31 October 2022) (). Training language models to follow instructions with human feedback. arXiv:2203.02155. https://openreview.net/forum?id=TG8KACxEON. 

(五)^ abOpenAI invites everyone to test ChatGPT, a new AI-powered chatbotwith amusing results (). Ars Technica (2022121). 202334

(六)^ Getting stakeholder engagement right in responsible AI. VentureBeat (202325). 202334

(七)^ Patrick Fernandes, Aman Madaan, Emmy Liu, António Farinhas, Pedro Henrique Martins, Amanda Bertsch, José G. C. de Souza, Shuyan Zhou, Tongshuang Wu, Graham Neubig, André F. T. Martins. "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". arXiv:2305.00955

(八)^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. 
Nisan, Stiennon; Long, Ouyang; Jeffrey, Wu; Daniel, Ziegler; Ryan, Lowe; Chelsea, Voss; Alec, Radford; Dario, Amodei et al. (2020). Learning to summarize with human feedback (). Advances in Neural Information Processing Systems 33. https://proceedings.neurips.cc/paper/2020/hash/1f89885d556929e98d3ef9b86448f951-Abstract.html. 

(九)^ Can AI really be protected from text-based attacks?. TechCrunch (2023224). 202334

(十)^ Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (). Forbes. 202334
How OpenAI is trying to make ChatGPT safer and less biased (). MIT Technology Review. 202334

ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense (). MIT Technology Review. 202334

(11)^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura et al. (2022). Improving alignment of dialogue agents via targeted human judgements. arXiv:2209.14375. 
Why DeepMind isn't deploying its new AI chatbot  and what it means for responsible AI. VentureBeat (2022923). 202334

Building safer dialogue agents (). www.deepmind.com. 202334

(12)^ Learning from human preferences. openai.com. 202334

(13)^ Learning through human feedback (). www.deepmind.com. 202334

(14)^ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30. https://papers.nips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html202334. 

(15)^ Thoughts on the impact of RLHF research (). 202334

(16)^ Illustrating Reinforcement Learning from Human Feedback (RLHF). Hugging Face. 202372

(17)^ Belenguer, Lorenzo (2022). AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry. AI Ethics. https://link.springer.com/article/10.1007/s43681-022-00138-8 

(18)^ Training Language Models to Follow Instructions with Human Feedback. Princeton. 202372

(19)^ What is overfitting?. IBM. 202372

(20)^ Understanding deep learning requires rethinking generalization. International Conference on Learning Representations. 202372

(21)^ Faulty reward functions in the wild. OpenAI. 202372