ディープラーニングブログ[B!]新着記事・評価

GPT-3の衝撃 - ディープラーニングブログ

1600 users

deeplearning.hatenablog.com

この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transformerの通り，自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built

テクノロジー
2020/07/21 09:46

メンヘラちゃんと学ぶディープラーニング最新論文 - ディープラーニングブログ

515 users

deeplearning.hatenablog.com

メンヘラちゃんがディープラーニングの最新論文をバリバリ語ってくれるシリーズです．Twitterに投稿したスライドをまとめました．サムネ画像スライド内のテキスト抽出（検索エンジン用）メンヘラちゃんと学ぶディープラーニング最新論文製作: Ryobot はじめに作者 • Ryobot (りょぼっと) • NAIST修士2年.RIKEN AIP勤務 (2017/7~) • チャットボットの個性と多様性の研究をしています • Twitter@_Ryobot でお気に入り論文を紹介していますスライドの概要 • メンヘラちゃんが最新論文をバリバリ語ってくれます • 分野は主に自然言語処理 (機械翻訳と言語理解) です • Twitter で投稿したスライドのまとめですメンヘラちゃん • ジョイネット様制作のLINEスタンプです • 作者様がフリー素

テクノロジー
2018/11/24 10:27

逆翻訳は機械翻訳の錬金術師か？ - ディープラーニングブログ

236 users

deeplearning.hatenablog.com

逆翻訳 (Back-Translation) を用いた手法が驚くべき快挙を成し遂げました*1．逆翻訳がヤバいスコアを叩き出しててびっくりした．おそらくAttention以降では最大の性能uphttps://t.co/ssaQw2s22f 深層学習はえげつない手法が突然ポッとでてくるからおもろい pic.twitter.com/RwyrjCn8Rx— Ryobot | りょぼっと (@_Ryobot) 2018年11月15日毎年開催される機械翻訳の国際会議 WMT18 のシェアードタスク*2にて人手評価の1位を獲得し，機械翻訳のベンチマークでは以前の最高スコアが 29.8 なのに対しこの手法は 35.0 を達成しています．下図は機械翻訳のベンチマークにおける手法の比較です*3．昨年登場した翻訳モデル Transformer *4も大きく評価スコアを上げましたが，逆翻訳はそれ以上の上が

テクノロジー
2018/11/17 21:42

教師なし学習は機械翻訳に魔法をかけるか？ - ディープラーニングブログ

373 users

deeplearning.hatenablog.com

つい先週，機械翻訳で驚くべき進展がありました．教師なし機械翻訳がヤバい進化を遂げててびっくりした．たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは？https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし，ちょっと語っていい？ pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです．この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います．教師あり学習の限界機械翻訳はディープラーニングを適用することで急激に進歩した分野の1つだと思います．Google 翻訳はニューラル機械翻訳を導入するこ

テクノロジー
2018/04/28 10:55

論文解説 Depthwise Separable Convolution for Neural Machine Translation (SliceNet) - ディープラーニングブログ

13 users

deeplearning.hatenablog.com

こんにちは Ryobot (りょぼっと) です．テンソル分解は 2017 年の密かなブームだったかもしれない．論文数は多くないが，テンソル分解を用いた手法が中規模言語モデル [1]，大規模言語モデル [2]，機械翻訳 (本紙) [3]，動作認識 [4] で軒並み SOTA を達成している． Breaking the Softmax Bottleneck: A High-Rank RNN Language Model [1] Factorization tricks for LSTM networks [2] Depthwise Separable Convolutions for Neural Machine Translation [3] Learning Compact Recurrent Neural Networks with Block-Term Tensor Decompo

テクノロジー
2017/12/23 16:57

State-of-the-Art を達成したニューラル機械翻訳 2017 年 - ディープラーニングブログ

38 users

deeplearning.hatenablog.com

Ryobot です．今週 5 日連続でニューラル機械翻訳の論文解説をやりました．もとは NAIST の第１回ニューラルネットワーク勉強会の発表資料で，大幅に加筆してひとりアドベントカレンダー？に変貌しました．今回紹介した論文は大規模な対訳コーパスにおける評価スコア上位 5 手法で，最先端のニューラル機械翻訳を網羅しています．近年の傾向をまとめると LSTM を使わず CNN 等の並列化が容易な手法を使う大規模コーパス + 巨大なモデル + 大量の GPU というわけで厳しい世界ですね． 1日目 GNMT Google翻訳の中身 GNMT です． 2016 年までのニューラル機械翻訳を最速で把握できる資料になっています． NMT 初心者におすすめです． 2日目 MoE MoE は最大 13 万のサブネットワーク (パラメータ数 1300 億！) を持つ超巨大ネットワークを条件付き

テクノロジー
2017/12/23 11:57

論文解説 Attention Is All You Need (Transformer) - ディープラーニングブログ

122 users

deeplearning.hatenablog.com

こんにちは Ryobot (りょぼっと) です．本紙は RNN や CNN を使わず Attention のみ使用したニューラル機械翻訳 Transformer を提案している．わずかな訓練で圧倒的な State-of-the-Art を達成し，華麗にタイトル回収した．また注意を非常にシンプルな数式に一般化したうえで，加法注意・内積注意・ソースターゲット注意・自己注意に分類した．このうち自己注意はかなり汎用的かつ強力な手法であり他のあらゆるニューラルネットに転用できる． WMT'14 の BLEU スコアは英仏: 41.0, 英独: 28.4 で第 1 位 Attention Is All You Need [Łukasz Kaiser et al., arXiv, 2017/06] Transformer: A Novel Neural Network Architecture f

テクノロジー
2017/12/21 19:02

論文解説 Convolutional Sequence to Sequence Learning (ConvS2S) - ディープラーニングブログ

7 users

deeplearning.hatenablog.com

声に出して読みたい英語． Also, RNNs aren't dead. Autoregressive CNN/intra-attentive models *are* RNNs. Their state is their output.— Colin (@colinraffel) 2017年8月9日 RNN は死んでいない．自己回帰 CNN と注意 (の再帰的構造) は RNN だから．それらの状態は (内部状態ではなく) 出力にある．こんにちは Ryobot (りょぼっと) です． ConvS2S は脱 RNN による系列方向の並列化という風潮を決定づけたニューラル機械翻訳の手法です．GNMT より高性能かつ訓練も 5 倍高速です．従来の意味で RNN は死にましたが，冒頭の意味で RNN は生まれ変わりました． WMT'14 の BLEU スコアは英仏: 40.51, 英独: 25

テクノロジー
2017/12/21 00:40

機械学習

論文解説 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE) - ディープラーニングブログ

4 users

deeplearning.hatenablog.com

こんにちは Ryobot (りょぼっと) です．本紙は ICLR 2017 のポスターセッションでもっとも注目を集めた論文である．写真の右側の Google Tシャツの男性が第一著者の Noam Shazeer，左側の女性が第二著者の Azalia Mirhoseini (ソース)．この論文では傍若無人なほど巨大な (Outrageously Large) 混合エキスパートと少数のエキスパートを選択するゲーティングネットワークを用意し，ゲーティングで選択した少数のエキスパートのみ順/逆伝播を実行することで巨大なモデルであっても少ない時間で訓練できる．機械翻訳と言語モデルの SOTA を達成した．著者に猫の概念で注目を集めた Quoc Le，深層学習のゴッドファーザー Geoffrey Hinton，分散システムの大御所 Jeffrey Dean が会している点でも注目を集めた．WM

テクノロジー
2017/12/19 21:17

論文解説 Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (GNMT) - ディープラーニングブログ

31 users

deeplearning.hatenablog.com

こんにちは Ryobot (りょぼっと) です． Google 翻訳の中身である GNMT (Google's Neural Machine Translation) [Wu, 2016] は良くいえばニューラル機械翻訳の王道を征 (ゆ) く手法であり，悪くいえば既存手法のいいとこ取りである．また，大規模対訳コーパス + モンスター級に巨大なモデル + 大量の GPU が一般化する契機にもなった．2016 年までの NMT を素早く把握するのに最適な教材と言える． WMT'14の BLEU スコアは英仏: 39.9, 英独: 24.6 で第5位 (登場時1位) Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Yonghui Wu,

テクノロジー
2017/12/18 19:54

対話モデルの訓練/評価フレームワーク ParlAI がすごい - ディープラーニングブログ

81 users

deeplearning.hatenablog.com

こんにちは，Ryobot です．本稿では ParlAI の基本的な使用法やユーザーが独自に定義できるエージェントの実装方法を解説しました．以下，PyTorch, Chainer, TensorFlow によるエージェントの実装例を GitHub にて公開したので適宜ご覧ください． ParlAI Agent examples with PyTorch, Chainer and TensorFlow 目次 ParlAI とは？インストールから example 実行まで ParlAI Agent の実装方法 1. 実装の流れ 2. PyTorch で RNNAgent を実装する 3. Chainer で RNNAgent を実装する 4. TensorFlow で RNNAgent を実装する 5. PyTorch で AttentionAgent (seq2seq with Atten

テクノロジー
2017/10/19 21:07

論文解説 Memory Networks - ディープラーニングブログ

117 users

deeplearning.hatenablog.com

こんにちは，Ryobot (りょぼっと) です．概要「メモリネットワーク」は代表的な記憶装置付きニューラルネットワークである．本稿ではメモリモデル (記憶装置付きニューラルネットワーク) をいくつか概説し，論文 2 紙 (1) Memory Networks, (2) Towards AI-Complete Question Answering の理論的な記述を全文翻訳して補足説明している．目次メモリモデルの概説 Memory Networks (MemNN) 1 メモリネットワークの概要 2 基本モデル 3 拡張モデル 4 実験 Towards AI-Complete Question Answering (bAbI task) 1 メモリネットワークの拡張 2 bAbI タスク 3 実験長文である．ざっくり知るだけなら「メモリモデルの概説」と Memory Networks

テクノロジー
2017/05/25 19:47

DeepMind の深層学習ライブラリ Sonnet を早速試してみた - ディープラーニングブログ

41 users

deeplearning.hatenablog.com

どうも，Ryobot です．夜桜を眺めながら酒を呑みたい季節になって参りました．追記 4/19 DeepMind から Differentiable Neural Computers の Sonnet 実装が公開されました．今後も PathNet や Elastic Weight Consolidation 等の実装が公開されることを期待したいですね． Sonnet は4月7日に公開されたばかりの DeepMind 謹製の深層学習ライブラリである．もともと DeepMind の社内で使用されていた TensorFlow のラッパーライブラリだったが，論文の実装を共有しやすくするためにオープンソースとして公開したようだ．Sonnet の最たる特徴として再利用可能なモジュールを複数回接続して計算グラフを構成することが挙げられる．Sonnet は TensorFlow Core の関数や

テクノロジー
2017/04/11 16:41

深層学習による自然言語処理 - RNN, LSTM, ニューラル機械翻訳の理論

169 users

deeplearning.hatenablog.com

本稿ではニューラルネットワーク，誤差逆伝播法，言語モデル，RNN，LSTM，ニューラル機械翻訳の一連の手法について数理的に解説する．前編の目次ニューラルネットワーク順伝播 (Forwardpropagation) 逆伝播 (Backpropagation) リカレントニューラルネットワーク (RNN) Recurrent Neural Network Language Model (RNNLM) Backpropagation Through Time (BPTT) Long Short-Term Memory (LSTM) Gated Recurrent Unit (GRU) RNN のドロップアウトとバッチ正規化ニューラル機械翻訳 (NMT) Sequence to Sequence (seq2seq) 注意 (Attention) 双方向エンコーダー・多層LSTM 評価手法

テクノロジー
2017/02/16 19:12