ディープラーニング

多層のニューラルネットワークによる機械学習手法
深層学習から転送)

: deep learning[2][1]4[3][2]: deep neural network; DNN[4]
Representing images on multiple layers of abstraction in deep learning
[1]

2042006[5]20002010[3][6][7][3]

20152017Transformer[8][9][10][4]

概要

編集

[2][1]21[5]2010[3]4[3][5]: deep neural network; DNN[4][7]=[7][3]

歴史

編集

ディープラーニングはニューラルネットワークの分野で最初に実現されたため、歴史はニューラルネットワークの発展から順次記載する。

前史

編集

19572[11]19803331990[12][13]

ネオコグニトロン(1979年)

編集

NHK1979[14][15][16][17][18]add-if silent使CNN

LeNet-5(1998年)

編集

1998年には畳み込みニューラルネットワーク(CNN)の直系の元祖となるLeNet-5(末尾の数字は5層であることを表す)が提案された。論文の中で、ニューラルネットワークの層構造を板状の図形で図示する方法が初めて用いられた[19]

多層ニューラルネットワークの実現(2006 - 2012年)

編集

[20]

1990退2006[6]2012ILSVRCAlexNet26%17%10%ILSVRC使20145%[21]

学習モデルの複雑化・数学的抽象化の時代(2012年 - 現在)

編集

CPUGPU2012[22]

2016[23][24]2022Stable DiffusionPixiv稿[25]ChatGPT[26]

利用

編集

GoogleIT

GoogleAndroid 4.3[27]2550[28]20121,00016,000使3[29][30]2001,000[31]GoogleLeNetImage to Text[32][33][34]20153Schroff800299.6%22[35]20161AlphaGo20151052013GoogleDeepMind10使[36][37]201620172016541201733[38][39]

Facebook[28]2013[40]2015116GPU23.5[41][42]

使NMT[43]

NPCAI[44]AI調[45][46]使[47]

[][48][49][50]43[51]2013[52][53][54]使[55][56]

[57]

ネットワークモデル

編集

ネットワークモデルは現在も盛んに研究されており、毎年新しいものが提案されている。

畳み込みニューラルネットワーク

編集

 (Convolutional Neural Networks: CNN) 2

19791988Homma Toshiteru[58]1989Yann LeCun使[59][60]1998LeCunLeNet-52012ILSVRCAlexNet[61]調

スタックドオートエンコーダ

編集

まず3層のオートエンコーダで学習を行い、学習が完了したら次の層(4層目)をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。事前学習とも呼ばれる。類似技術にディープビリーフネットワーク、ディープボルツマンマシンなどがある。

Residual network

編集

[]1000

敵対的生成ネットワーク

編集

2つのネットワークが相反した目的のもとに学習するネットワークモデル。Discriminatorが損失関数の役目を担う。二乗誤差最小化などでは、ピークが一つしか無いことを仮定しているが、discriminatorはニューラルネットであるのでピークを複数持つ確率分布を近似でき、より一般の確率分布を扱うことができる。

Transformer

編集

Self-Attention機構(自己注意機構)を利用したモデルである[62]。再帰型ニューラルネットワークの代替として考案された[62]

MLP-mixer

編集

従来のニューラルネットワークとは異なり、本来ディープラーニングには使われないはずの純粋な多層パーセプトロンのみで構成された画像認識モデルである[63]。画像を多数のパッチに分け、それらのパッチごとにパラメータ共有された層とパッチ間での変換を行う層を用意することで大幅な精度の向上がされている。欠点としては、固定されたサイズの画像しか入力が出来ない。

ボルツマンマシン

編集

統計的な変動をもちいたホップフィールド・ネットワークの一種。

制限ボルツマンマシン

編集

同一層間では接続を持たないボルツマンマシン。

回帰型ニューラルネットワーク

編集

Recurrent Neural NetworkRNN

19801982ElmanJordan1997S. HochreiterJ. SchmidhuberLSTMLong short-term memory

特有の問題

編集

勾配消失問題

編集

00NN00

過学習

編集

トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。

局所最適解へのトラップ

編集

学習が、大域的な最適解ではなく、局所的には適した解へと収束し、抜け出せなくなること。

テクニック

編集

データ拡張

編集

深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定(モデル化)ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。

活性化関数

編集

古くからニューラルネットワークにおいてはシグモイド関数がよく使われていたが、勾配消失問題などにより、近年では別の関数が使われるようになった。詳しくは活性化関数を参照。

ReLU(rectified linear unit ランプ関数とも呼ばれる)

 

出力が0.0 - 1.0に規格化されないため勾配消失問題が起きにくく、またシグモイド関数に比べると単純であるために計算量が小さく学習が速く進む等のメリットがある[64]

maxout

編集

CNN

ドロップアウト

編集

[]使Random forest

スパースコーディング

編集

()L1

バッチ正則化

編集

 ( 01)  (internal covariance shift) [65][66][67]

量子化

編集

: quantization-

[68]


表. 量子化勾配生成手法
手法名
: straight-through estimator, STE
: Gumbel-Softmax

以下は量子化を深層学習モデルへ組み込む技法の一例である:

表. 量子化手法
手法名 量子化単位 勾配 利用モデル名 原論文
ベクトル量子化, VQ

: vector quantization

ベクトル STE[69] VQ-VAE [70]
: product quantization [71] サブベクトル softmax or STE[72] [73]
: residual vector quantization, RVQ ベクトル SoundStream
: finite scalar quantization, FSQ [74] スカラー STE[75] [76]

ミニバッチ法

編集

蒸留

編集

事前学習 (Pre-training)

編集

AdaGrad

編集

ライブラリ

編集

Caffe - Python, C++

torch - Lua

Theano - PythonGPU

Pylearn2 - Python

Blocks - Python

Keras - PythonTensorFlowTheano

Lasagne - Python

deepy - Python

cuDNN - NVIDIACUDA (GPU) DNN

Deeplearning4j - JavaScala使

EBlearn - C++CNN

cuda-convnet - C++/CUDACNNEBlearn

Chainer - Python

TensorFlow - Python, C++

ReNom - Python

PyTorch

Microsoft Cognitive Toolkit - Python, C++, C#CNTK

DyNet - Python, C++

脚注

編集

注釈

編集


(一)^ ab()Ian GoodfellowYoshua BengioAaron Courville"Deep Learning"Introduction4pp.1-2AI

(二)^ 23

(三)^ ab[][][][][]

(四)^ arXiv

(五)^ 23

(六)^ 

出典

編集


(一)^ Schulz, Hannes; Behnke, Sven (1 November 2012). Deep Learning (). KI - Künstliche Intelligenz 26(4): 357363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. https://www.semanticscholar.org/paper/51a80649d16a38d41dbd20472deb3bc9b61b59a0. 

(二)^ abIan Goodfellow and Yoshua Bengio and Aaron Courville. Deep Learning (English). . 202124

(三)^ abcd : 2015xivISBN 9784764904873 

(四)^ ab  xiii

(五)^ ab  ()201548ISBN 978-4061529021

(六)^    2021/04/16  https://www.iwanami.co.jp/moreinfo/tachiyomi/0297030.pdf https://www.iwanami.co.jp/book/b570597.html  2019/11/22 IBIS    /  / JSThttps://ibisml.org/ibis2019/files/2019/11/slide_imaizumi.pdf https://sites.google.com/view/mimaizumi/home_JP 

(七)^ abcIan Goodfellow and Yoshua Bengio and Aaron Courville. Deep Learning. An MIT Press book. p. 14. 202123

(八)^ ChatGPT - . www.nikkei.com. 202357

(九)^ AIGLOBE. GLOBE. 2022828

(十)^  |  . www1.gifu-u.ac.jp. 202357

(11)^  2013, p. 92.

(12)^ 使?. WirelessWire News (2015520). 2015521

(13)^  2013, p. 94.

(14)^ . 2015630

(15)^  ---  ---. A (1979101). 2017816

(16)^ CNN (2015522). 201593

(17)^ CEDEC 2015. 4gamer (2015829). 201591

(18)^  2015, p. 107.

(19)^ MNIST Demos on Yann LeCun's website. yann.lecun.com. 2021331 / 1989.02   pp.32 

(20)^ Tappert, Charles C. (2019-12). Who Is the Father of Deep Learning?. 2019 International Conference on Computational Science and Computational Intelligence (CSCI): 343348. doi:10.1109/CSCI49370.2019.00067. https://ieeexplore.ieee.org/document/9070967. 

(21)^   (2014101). 1.  xTECH. 20191220

(22)^ 2.  (2015114). 2015530

(23)^ A Neural Network for Machine Translation, at Production Scale (). ai.googleblog.com (2016927). 2023730

(24)^ 4-9 Surviving in the New Information Economy - Adopting a Learning Lifestyle. Coursera. 2023730

(25)^ Startup Stability Releases New AI Model For Stable Diffusion as Deep-Fake Concerns Rise (). Bloomberg.com. (2023622). https://www.bloomberg.com/news/articles/2023-06-22/startup-stability-debuts-a-new-ai-model-for-stable-diffusion 2023730 

(26)^ ChatGPT  Release Notes | OpenAI Help Center (). help.openai.com. 2023730

(27)^ Google. ascii× (2015321). 2015521

(28)^ ab 2015, p. 29.

(29)^  2015, p. 28.

(30)^ . wired (20141120). 2015518

(31)^ GPU. PC Watch (2014417). 2015521

(32)^ Images to Text. GIGAZINE (20141213). 2015521

(33)^ . WIRED (20141120). 2015530

(34)^ . WIRED (201499). 2015530

(35)^ CEDEC 2015 

(36)^  ITTOUSAI (2016128). GoogleAIAlphaGo. Engadget. 2016128201632

(37)^  CADE METZ (2016131). 10. WIRED. 201632

(38)^ 3. . (2016316). https://web.archive.org/web/20160316142025/http://japanese.joins.com/article/276/213276.html 201827 

(39)^ AlphaGo3.  (2017527). 201827

(40)^ Facebook. ITMedia News (20131210). 2015522

(41)^ FacebookTorch. ITMedia News (2015119). 2015522

(42)^ Facebook. ZDNet Japan (2015119). 2015522

(43)^   2017605 p.299-306, doi:10.1241/johokanri.60.299

(44)^ Lu, Yunlong; Li, Wenxin (2022-08-12). Techniques and Paradigms in Modern Game AI Systems (). Algorithms 15(8): 282. doi:10.3390/a15080282. ISSN 1999-4893. https://www.mdpi.com/1999-4893/15/8/282. 

(45)^ M. Wittmann, Benedikt Morschheuser (2022). What do games teach us about designing effective human-AI cooperation? - A systematic literature review and thematic synthesis on design patterns of non-player characters. GamiFIN Conference. 

(46)^ 2015 - ZMPRoboCar MiniVan.  (2015520). 2015526

(47)^ Iizuka, Tomomichi; Fukasawa, Makoto; Kameyama, Masashi (2019-06-20). Deep-learning-based imaging-classification identified cingulate island sign in dementia with Lewy bodies (). Scientific Reports 9(1). doi:10.1038/s41598-019-45415-5. ISSN 2045-2322. PMC PMC6586613. PMID 31222138. https://www.nature.com/articles/s41598-019-45415-5. 

(48)^ AI. . (2017630). http://jp.wsj.com/articles/SB11588421679375374726504583234572468806316 201827 

(49)^ . . (20171118). https://jp.reuters.com/article/china-facial-recognition-firms-idJPKBN1DF0PT 201827 

(50)^ . . (201823). https://wpb.shueisha.co.jp/news/technology/2018/02/03/99109/ 201827 

(51)^ 300m. Engadget. (2018120). 2020313. https://web.archive.org/web/20200313223143/http://japanese.engadget.com/2018/01/19/300m/ 201827 

(52)^ AI. WIRED. (2017816). https://wired.jp/2017/08/16/america-china-ai-ascension/ 201827 

(53)^ . Sankei Biz. (201941). https://web.archive.org/web/20190401134739/https://www.sankeibiz.jp/macro/news/190401/mcb1904010710001-n1.htm 201945 

(54)^ Deep Learning Godfather Bengio Worries About China's Use of AI. . (201922). https://www.bloomberg.com/news/articles/2019-02-02/deep-learning-godfather-bengio-worries-about-china-s-use-of-ai 201945 

(55)^ AI使. . 2021331

(56)^ AIAI. . 202141

(57)^ Mahmud, Mufti; Kaiser, M. Shamim; McGinnity, T. Martin; Hussain, Amir (2021-01-01). Deep Learning in Mining Biological Data (). Cognitive Computation 13(1): 133. doi:10.1007/s12559-020-09773-x. ISSN 1866-9964. PMC PMC7783296. PMID 33425045. https://doi.org/10.1007/s12559-020-09773-x. 

(58)^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification. Advances in Neural Information Processing Systems 1: 3140. http://papers.nips.cc/paper/20-an-artificial-neural-network-for-spatio-temporal-bipolar-patterns-application-to-phoneme-classification.pdf. 

(59)^ Yann Le Cun (June 1989). Generalization and Network Design Strategies. http://yann.lecun.com/exdb/publis/pdf/lecun-89.pdf. 

(60)^ Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4): 541-551. 

(61)^ Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25: 1097-1105. http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-. 

(62)^ abVaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). Attention Is All You Need. arXiv:1706.03762 [cs]. http://arxiv.org/abs/1706.03762. 

(63)^ Tolstikhin, Ilya; Houlsby, Neil; Kolesnikov, Alexander; Beyer, Lucas; Zhai, Xiaohua; Unterthiner, Thomas; Yung, Jessica; Steiner, Andreas et al. (2021-06-11). MLP-Mixer: An all-MLP Architecture for Vision. arXiv:2105.01601 [cs]. http://arxiv.org/abs/2105.01601. 

(64)^   p11

(65)^ [1806.02375]

(66)^ Understanding Batch Normalization · Issue #942 · arXivTimes/arXivTimes · GitHub

(67)^  Understanding Batch Normalization - 

(68)^ Chang, Shih Yu; Wu, Hsiao-Chun (2022-08). Tensor Quantization: High-Dimensional Data Compression. IEEE Transactions on Circuits and Systems for Video Technology 32(8): 55665580. doi:10.1109/TCSVT.2022.3145341. ISSN 1051-8215. https://ieeexplore.ieee.org/document/9687585/. 

(69)^ "we approximate the gradient similar to the straight-through estimator" Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.

(70)^ Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.

(71)^ "In this work, we propose differentiable product quantization" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.16171626.

(72)^ "The second instantiation of DPQ ... pass the gradient straight-through" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.16171626.

(73)^ Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.16171626.

(74)^ "Each (scalar) entry in the representation z is independently quantized to the nearest integer by rounding ... bounding the range of the quantizer ... We call this approach finite scalar quantization (FSQ)" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

(75)^ "To get gradients through the rounding operation, we use the STE" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

(76)^ Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

参考文献

編集

AI 1︿2015320ISBN 978-4-06-288307-8 

AI 1︿2013730ISBN 978-4-02-273515-7 

 1KADOKAWA︿EPUB2015311ISBN 978-4040800202 

2017


関連項目

編集

外部リンク

編集