コンテンツにスキップ

GPT (言語モデル)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
オリジナルのGPTモデル

Generative Pre-trained TransformerGPTOpenAI

Transformer使"pre-trained"

GPT-1[]


2018611OpenAI"Improving Language Understanding by Generative Pre-Training"GPTGenerative Pre-trained Transformer[1]

使[1][2]使使[2]GPT22使[1]

 NVIDIA Quadro P600 830使33%0.96FLOPS[3]

シリーズ一覧[編集]

名称 用途 アーキテクチャ パラメータ数 訓練データ リリース日
GPT-1 汎用 12-level, 12-headedのTransformerデコーダ(エンコーダなし)、linear-softmaxによりフォローされる。 1億1700万 BookCorpus[4] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト 2018年6月11日[3]
GPT-2 汎用 GPT-1 + 正規化/初期化 15億 WebText(40GB) 2019年2月14日
GPT-3 汎用 GPT-2 + スパースアテンション 1750億[5] 570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText, English Wikipedia, および2つの書籍コーパス(Books1およびBooks2). 2020年6月11日[6]
Codex プログラミング GPT-3をプログラミング用途に調整 2021年8月10日[7]
InstructGPT 会話 GPT-3を人間のフィードバックによる指示に従うよう微調整[8] 2022年3月4日
GPT-3.5 汎用 非公開 非公開 非公開 2022年3月15日
ProtGPT2 タンパク質配列[9] GPT-2 large(36層)と同様 7億3800万 UniRef50からのタンパク質配列(計4488万、検証のために10%を使用した後) 2022年7月27日
BioGPT 生物医学のコンテンツ[10][11] GPT-2 medium(24層、16 heads)と同様 3億4700万 PubMedの空でない項目(計150万) 2022年9月24日
ChatGPT 会話 GPT-3.5を使用し、教師あり学習とRLHF[12]の両方でファインチューニングされている(転移学習のアプローチ)[13] 非公開 非公開 2022年11月30日
GPT-4 汎用、マルチモーダル[14] テキスト予測とRLHFの両方で訓練されている。詳細非公開[15] 非公開 非公開 2023年3月14日

出典[編集]



(一)^ abcImproving Language Understanding by Generative Pre-Training.  OpenAI. pp. 12 (2018611). 20211262021123

(二)^ abTsvetkov, Yulia (2017622). Opportunities and Challenges in Working with Low-Resource Languages.  Carnegie Mellon University. 20203312021123

(三)^ abImproving language understanding with unsupervised learning (). openai.com. 2023318

(四)^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 1927. arXiv:1506.06724. https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html. 

(五)^ Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155 [cs]. https://arxiv.org/abs/2203.02155 2023323. 

(六)^ Improving language understanding with unsupervised learning (). openai.com. 2023318

(七)^ OpenAI Codex. 202355

(八)^ Aligning language models to follow instructions. openai.com. 2023323

(九)^ Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). ProtGPT2 is a deep unsupervised language model for protein design.. Nature Communications Volume 13 (1): 4348. Bibcode: 2022NatCo..13.4348F. doi:10.1038/s41467-022-32007-7. PMC 9329459. PMID 35896542. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9329459/.  

(十)^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining.. Brief Bioinform 23 (6). doi:10.1093/bib/bbac409. PMID 36156661. https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org/cite&retmode=ref&cmd=prlinks&id=36156661.  

(11)^ Matthias Bastian (2023129). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder. 2023318

(12)^ Introducing ChatGPT (). openai.com. 2023316

(13)^ Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. January 10, 2023. https://web.archive.org/web/20230110131250/https://d2l.ai/chapter_computer-vision/fine-tuning.html#steps 2023110 

(14)^ 

(15)^ OpenAI (2023). GPT-4 Technical Report. 2023318