コンテンツにスキップ

物体検出

この記事は良質な記事に選ばれています
出典: フリー百科事典『ウィキペディア(Wikipedia)』
80クラスの一般的な物体を検出できるCOCOデータセットで学習されたYOLOv3モデルを使用して、OpenCVのディープニューラルネットワークモジュール(DNN)で検出された物体。

object detection[1][2]R-CNNYOLOSSD使

[]


[3]使[4][5]

[3][2][3][6][7][7]

[2][8][9][10][ 1]2004SIFT[12][3]2012(DNN)[13]DNN[14]2019DNN[3]

[]

[]


1970[15]使[3]1990SVM[3]

SIFT[]


[3]2004SIFT[12][3]2001Haar-LikeViolaJones[16][2][17]

[]


SIFT[13]CNNCNN[18]2012Alex KrizhevskyILSVRC2012CNN[13][13]GPU[18]

CNN2014R-CNNregion proposalCNNBounding box[14]CNNSVMBounding box[3]

[]


R-CNN2014SPPNet[19]R-CNN[3]2015Fast R-CNN[20]CNNCNNR-CNN[2]2015Faster R-CNN[21]Region Proposal NetworkRPN[2]Bouding boxBounding boxMask R-CNN[22]R-CNN2[2]

2[3]Bouding box1[3][2]2013OverFeat[23]ILSVRC2013OverFeat2R-CNNOverFeatfully convolutional network[ 2][3]OverFeatYOLOSSD[3]2016YOLO[26][2]YOLO45fps[ 3]2Faster R-CNN1[3]2016Single Shot MultiBox DetectorSSD[27]Faster R-CNNRPNYOLOFaster R-CNN[3]2019EfficientDet[28]12Mask R-CNN[28]

[]

Microsoft COCO testdevhttp://mscoco.org[29]https://arxiv.org

SVM使[3][3]CNN2012[2][3]

[]


[3][30]

Haar-LikeViolaJones[31]

Haar-Like2001[32][33][32]([34])Haar-Like[35]

 (SIFT)[36]

[37][38]SIFTSIFT[39]

HOG[40]

2005[32]SIFTSIFTHOG[41][32][41]

[]

(a)2(b)1

R-CNN[14]Fast R-CNN[20]Faster R-CNN[21] cascade R-CNN[42]

R-CNN2014CNNHOG[43]R-CNNCNN[44]Fast R-CNNFaster R-CNNCNN[44]

You Only Look OnceYOLO[26][45][46][29]

2016[47]R-CNN1[47][48]45FPS[49][47]

Single Shot MultiBox DetectorSSD[27]

2016YOLO1YOLOSSD[50][51][52]

Single-Shot Refinement Neural Network for Object Detection (RefineDet) [53]

20171[53]2end-to-end[54]2[53]2[54]

Retina-Net[55][56]

2018[55]Focal loss[57][58]1Feature Pyramid Network(FPN)[58]2[55]

Deformable convolutional networksDCN[59][60]

2017[7][61]

[]


[62] [63][64][64][65][3]2017UMD Faces[66][66][2]

[]



一般物体検出 データセット一覧
名称 発表年 枚数 クラス数[注釈 4] 特徴・備考
Pascal VOC[67] 2005 11,540 20 2005年に4クラスでスタートした後、現在の20クラスに増加。後発のデータセットに比べて小規模[3]
ImageNet[68] 2009 1,400万枚以上 21,841 サブセットであるImageNet1000は、コンペティションのベンチマークのデータセットとして使用されている[3]
MS COCO[69] 2014 約328,000 91 ImageNetが実世界に適応できないとの批判に対応し、小さな物体を多く含んだり遮蔽物(オクルージョン)が多いという改善を施したデータセット[69]。2019年現在、物体検出におけるベンチマークの標準とされる[3]
OpenImage[70] 2017 約900万枚 600 2019年現在、最大規模のデータセット[3]。ラベル付与を半自動化し、人間の目でそれらをチェックしている[70]のが特徴。

顔検出[編集]


[71][2]
顔検出 データセット一覧
名称 発表年 枚数 特徴・備考
UMD Faces - Video[72] 2017 22,075 動画を含む
MegaFace[73] 2017 約470万
MS-Celeb-1M[74] 2016 約100万 Microsoftが開催したコンペティションで使用されたデータセット

道路シーン[編集]

物体検出の実世界への応用分野の一つとして自動運転が挙げられる。これは自動運転において、道路上の信号機標識を認識することが必要だからである[75]。以下では標識や信号機を含むデータセットを挙げている。

道路シーン データセット一覧
名称 発表年 枚数 クラス数 特徴・備考
CityScapes[76] 2016 約5,000 30 ドイツの各都市の道路シーン画像を収集 セグメンテーションラベルが付与されている
KITTI[77] 2012 約15,000 16 他にOptical Flowの情報や、3次元のアノテーションが付与されたデータも存在する
LISA[78] 2012 約6,610 47 アメリカで撮影された道路シーン 動画を含むバージョンも存在する

評価指標[編集]

物体検出タスクにおけるIoUの計算例。

211(FPS)[3]IoU(Intersection over Union)10IoU[63][3]Average Precision, AP[3][79]使[3]

Presicion

TPFP




Recall

FN


[79]

[]


2020

[]


DNN[80][3][80][81][82][83][84][67][68][69][70][3]

[]


[3][ 5][ 6][86]GAN[87][3]

[]


[3][3]

[3][7]

脚注[編集]

注釈[編集]



(一)^ 使[11]

(二)^ 1[24]fully convolutional network1[25]

(三)^ 2Faster R-CNN5fps[21]

(四)^ 44()

(五)^ 

(六)^ 1使[85]2x211/4

出典[編集]



(一)^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 12101224.

(二)^ abcdefghijklZhao, Zhong-Qiu (2019). Object Detection with Deep Learning: A Review. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3212-3232. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865. 

(三)^ abcdefghijklmnopqrstuvwxyzaaabacadaeafagahaiajakLi Liu (2020). Deep Learning for Generic Object Detection: A Survey. International Journal of Computer Vision 128: 261-318. doi:10.1007/s11263-019-01247-4. 

(四)^ Olga Russakovsky (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision 115 (3): 211-252. arXiv:1409.0575v2. doi:10.1007/s11263-015-0816-y. 

(五)^  (<>AI)2952014448-455doi:10.11517/jjsai.29.5_448 

(六)^ Zhang, Xin; Yang, Yee-Hong; Han, Zhiguang; Wang, Hui; Gao, Chao (2013-10). Object class detection: A survey (). ACM Computing Surveys 46 (1): 153. doi:10.1145/2522968.2522978. ISSN 0360-0300. https://dl.acm.org/doi/10.1145/2522968.2522978 202145. 

(七)^ abcdWu, Sahoo & Hoi 2020, p. 20.

(八)^  2008, p. 9.

(九)^  2007, p. 4.

(十)^  2008, p. 9-10.

(11)^  2007, p. 1.

(12)^ abDavid G. Lowe (2004). Distinctive Image Features from Scale-Invariant Keypoints (pdf). e International Journal of Computer Vision 60: 91-110. doi:10.1023/B:VISI.0000029664.99615.94. https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf 20201120. 

(13)^ abcdKrizhevsky, Alex (2012). ImageNet Classification with Deep Convolutional Neural Networks. NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems 1: 10971105. 

(14)^ abcRoss, Girshick (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (IEEE): 580587. arXiv:1311.2524. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf. 

(15)^ M.A. Fischler (1973). The Representation and Matching of Pictorial Structures. IEEE Transactions on Computers C-22 (1): 67-92. doi:10.1109/T-C.1973.223602. 

(16)^ VIOLA P. (2002). Robust Real-time Object Detection. International Journal of Computer Vision 57 (2): 137-154. 

(17)^  2019, p. 293.

(18)^ abQingchen Zhang (2018). A survey on deep learning for big data. Information Fusion 42: 146-157. doi:10.1016/j.inffus.2017.10.006. ISSN 1566-2535. 

(19)^ K. He (2015). Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 37 (9): 1904-1916. arXiv:1406.4729v4. doi:10.1109/TPAMI.2015.2389824. 

(20)^ abGirschick, Ross (2015). Fast R-CNN. Proceedings of the IEEE International Conference on Computer Vision: 14401448. arXiv:1504.08083. Bibcode: 2015arXiv150408083G. https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf. 

(21)^ abcShaoqing, Ren (2015). Faster R-CNN. Advances in Neural Information Processing Systems. arXiv:1506.01497. 

(22)^ Kaiming He (2018). Mask R-CNN. ICCV2017. arXiv:1703.06870. 

(23)^ Sermanet, Pierre (2013). OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. International Conference on Learning Representations. 

(24)^ Zhao, Rui; Yan, Ruqiang; Chen, Zhenghua; Mao, Kezhi; Wang, Peng; Gao, Robert X. (2019-01). Deep learning and its applications to machine health monitoring (). Mechanical Systems and Signal Processing 115: 213237. arXiv:1612.07640. doi:10.1016/j.ymssp.2018.05.050. https://linkinghub.elsevier.com/retrieve/pii/S0888327018303108 20201124. 

(25)^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor (2015-06). Fully convolutional networks for semantic segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Boston, MA, USA: IEEE): 34313440. arXiv:1411.4038. doi:10.1109/CVPR.2015.7298965. ISBN 978-1-4673-6964-0. http://ieeexplore.ieee.org/document/7298965/ 20201124. 

(26)^ abRedmon, Joseph (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1506.02640. Bibcode: 2015arXiv150602640R. 

(27)^ abLiu, Wei (October 2016). SSD: Single shot multibox detector. Computer Vision  ECCV 2016. Lecture Notes in Computer Science. 9905. 2137. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3 

(28)^ abMingxing Tan (2020). EfficientDet: Scalable and Efficient Object Detection. CVPR2020: 10778-10787. arXiv:1911.09070. doi:10.1109/CVPR42600.2020.01079. 

(29)^ abBochkovskiy, Alexey (2020). "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 [cs.CV]

(30)^  2012, p. 13.

(31)^ Viola, P.; Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001 (Kauai, HI, USA: IEEE Comput. Soc) 1: I511I-518. doi:10.1109/CVPR.2001.990517. ISBN 978-0-7695-1272-3. http://ieeexplore.ieee.org/document/990517/. 

(32)^ abcd 2019, p. 292.

(33)^ Haar-like20122012759760doi:10.11522/pscjspe.2012S.0.759.0

(34)^ 45201095-101ISSN 18833217NAID 40017333781 

(35)^ 9692013920172040ISSN 1880-4535

(36)^ Lowe, D.G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision (Kerkyra, Greece: IEEE): 11501157 vol.2. doi:10.1109/ICCV.1999.790410. ISBN 978-0-7695-0164-2. http://ieeexplore.ieee.org/document/790410/. 

(37)^ FUJIYOSHI & AMBAI 2011, p. 1109.

(38)^  2012, p. 6.

(39)^ FUJIYOSHI & AMBAI 2011, p. 1115.

(40)^ Dalal, Navneet (2005). Histograms of oriented gradients for human detection. Computer Vision and Pattern Recognition 1. https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf. 

(41)^ ab 2008, p. 14.

(42)^ Cai, Zhaowei; Vasconcelos, Nuno (2019). Cascade R-CNN: High Quality Object Detection and Instance Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence: 11. doi:10.1109/TPAMI.2019.2956516. ISSN 0162-8828. https://ieeexplore.ieee.org/document/8917599/. 

(43)^ Jiao 2019, p. 128839.

(44)^ abNikhil Yadav; Binay, Utkarsh (2017). Comparative Study of Object Detection Algorithms (PDF). International Research Journal of Engineering and Technology (IRJET) 4 (11): 586-591. ISSN 2395-0056. https://d1wqtxts1xzle7.cloudfront.net/55203666/IRJET-V4I11103.pdf?1512469385=&response-content-disposition=inline%3B+filename%3DComparative_Study_of_Object_Detection_Al.pdf&Expires=1617003839&Signature=E8jjGRsWN6osFxMBC2fzvtRjJSIfxTrJOtUdZInsjMx7UTDSE0d7Lit4V2A2Nq~Ga2bnlHeLm-L4yJHqHpZCJsFgS~AwuRChabelJr1a25~gdqWWX6m~EvxT7RumAyoL1bVXF43DUal0CwKXE29atnt~qj78TuzBs2FIL0XdnMi6QPlduUBYVGzXPqxVvgqHJtr6Ms11aLbKtcTARRPKXbOxp48iQAJelW4ARNXg52o63d5ZawX867R0dcq~Vfy6H8EXUmdc-vX4-p0C5Db654kpxTMjejRmvCDYeEVObo3gQ5lhmuN4MtnW35vHwv6USdXfwqQA9qjcBo479ZxF2A__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA 2021329. 

(45)^ Redmon, Joseph (2017). "YOLO9000: better, faster, stronger". arXiv:1612.08242 [cs.CV]

(46)^ Redmon, Joseph (2018). "Yolov3: An incremental improvement". arXiv:1804.02767 [cs.CV]

(47)^ abcWu, Sahoo & Hoi 2020, p. 9.

(48)^ Aziz et al. 2020, p. 170472.

(49)^ Aziz et al. 2020, p. 170473.

(50)^ Wu, Sahoo & Hoi 2020, p. 10.

(51)^ Aziz et al. 2020, p. 170474.

(52)^ Wu, Sahoo & Hoi 2020, p. 9-10.

(53)^ abcZhang, Shifeng (2018). Single-Shot Refinement Neural Network for Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 42034212. arXiv:1711.06897. Bibcode: 2017arXiv171106897Z. 

(54)^ abAziz et al. 2020, p. 170475.

(55)^ abcLin, Tsung-Yi (2020). Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 42 (2): 318327. arXiv:1708.02002. Bibcode: 2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. 

(56)^ Pang, Jiangmiao; Chen, Kai (4 April 2019). "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701v1 [cs.CV]

(57)^ Lin, Tsung-Yi (2020). Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 42 (2): 318327. arXiv:1708.02002. Bibcode: 2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. 

(58)^ abMandhala, Venkata Naresh; Bhattacharyya, Debnath; B., Vamsi; Rao N., Thirupathi (2020). Object Detection Using Machine Learning for Visually Impaired People. International Journal of Current Research and Review 12 (20): 157167. doi:10.31782/ijcrr.2020.122032. ISSN 2231-2196. https://doi.org/10.31782/IJCRR.2020.122032. 

(59)^ Zhu, Xizhou (2018). "Deformable ConvNets v2: More Deformable, Better Results". arXiv:1811.11168 [cs.CV]

(60)^ Dai, Jifeng (2017). "Deformable Convolutional Networks". arXiv:1703.06211 [cs.CV]

(61)^ Aziz et al. 2020, p. 170476.

(62)^  2007, p. 8.

(63)^ abJiao 2019.

(64)^ abHao Su, Jia Deng, Li Fei-Fei. Crowdsourcing Annotations for Visual Object Detection (Report). HCOMP@AAAI 2012. pp. 4046. 2021324

(65)^  2007, p. 16.

(66)^ abAnkan Bansal (2017). UMDFaces: An Annotated Face Dataset for Training Deep Networks. 2017 IEEE International Joint Conference on Biometrics (IJCB): 464-473. arXiv:1611.01484. doi:10.1109/BTAS.2017.8272731. 

(67)^ abMark Everingham (2015). The PASCAL Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision 111: 98136. doi:10.1007/s11263-014-0733-5. 

(68)^ abJia Deng (2009). ImageNet: A large-scale hierarchical image database (pdf). 2009 IEEE Conference on Computer Vision and Pattern Recognition: 248-255. doi:10.1109/CVPR.2009.5206848. https://www.researchgate.net/profile/Li_Jia_Li/publication/221361415_ImageNet_a_Large-Scale_Hierarchical_Image_Database/links/00b495388120dbc339000000/ImageNet-a-Large-Scale-Hierarchical-Image-Database.pdf 20201123. 

(69)^ abcTsung-Yi Lin (2014). Microsoft COCO: Common Objects in Context. ECCV2014: 740755. arXiv:1405.0312. doi:10.1007/978-3-319-10602-1_48. 

(70)^ abcAlina Kuznetsova (2020). The Open Images Dataset V4. ICCV 128 (40). arXiv:1811.00982. doi:10.1007/s11263-020-01316-z. 

(71)^ Iacopo Masi (2018). Deep Face Recognition: A Survey. 2018 31st SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI): 471-478. arXiv:1804.06655. doi:10.1109/SIBGRAPI.2018.00067. 

(72)^ Ankan Bansal (2017). The Dos and Donts for CNN-based Face Verification. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW): 2545-2554. arXiv:1705.07426. doi:10.1109/ICCVW.2017.299. 

(73)^ Aaron Nech (2017). Level Playing Field for Million Scale Face Recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 3406-3415. doi:10.1109/CVPR.2017.363. 

(74)^ Yandong Guo (2016). MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition. ECCV 2016. arXiv:1607.08221. doi:10.1007/978-3-319-46487-9_6. 

(75)^ Alex Pon (2018). A Hierarchical Deep Architecture and Mini-batch Selection Method for Joint Traffic Sign and Light Detection. 2018 15th Conference on Computer and Robot Vision (CRV): 102-109. arXiv:1806.07987. doi:10.1109/CRV.2018.00024. 

(76)^ M. Cordts (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 

(77)^ Andreas Geiger (2012). Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. Conference on Computer Vision and Pattern Recognition (CVPR)2012. 

(78)^ Andreas Mogelmose (2012). Vision-Based Traffic Sign Detection and Analysis for Intelligent Driver Assistance Systems: Perspectives and Survey. IEEE Transactions on Intelligent Transportation Systems 13 (4): 1484-1497. doi:10.1109/TITS.2012.2209421. 

(79)^ abPowers, David (2011). Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. J. Mach. Learn. Technol 2. arXiv:2010.16061. doi:10.9735/2229-3981. 

(80)^ abKarel Lenc (2015). Understanding image representations by measuring their equivariance and equivalence (pdf). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 991-999. doi:10.1109/CVPR.2015.7298701. https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf 20201123. 

(81)^ Jianqi Ma (2018). Arbitrary-Oriented Scene Text Detection via Rotation Proposals. IEEE Transactions on Multimedia 20 (11): 3111-3122. arXiv:1703.01086. doi:10.1109/TMM.2018.2818020. 

(82)^ Jian Ding (2019). Learning RoI Transformer for Oriented Object Detection in Aerial Images. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): 2844-2853. arXiv:1812.00155. doi:10.1109/CVPR.2019.00296. 

(83)^ Gui-Song Xia (2018). DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition: 3974-3983. arXiv:1711.10398. doi:10.1109/CVPR.2018.00418. 

(84)^ Zikun Liu (2017). A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines. the 6th International Conference on Pattern Recognition Applications and Methods (ICPRAM) 1: 324-331. doi:10.5220/0006120603240331. 

(85)^ , ; , (2019-06-01). . JSAI2019: 1-4. doi:10.11517/pjsai.JSAI2019.0_1Q3J202. 

(86)^ Jifeng Dai (2017). Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV): 764-773. arXiv:1703.06211. doi:10.1109/ICCV.2017.89. ISSN 2380-7504. 

(87)^ Xiaolong Wang (2017). A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 3039-3048. arXiv:1704.03414. doi:10.1109/CVPR.2017.324. 

[]


2-- 22  2-1  (PDF)2012282021323

2-- 22  2-2  (PDF)20129212021323

FUJIYOSHI, Hironobu; AMBAI, Mitsuru (2011). "Gradient-based Image Local Features". Journal of the Japan Society for Precision Engineering. 77(12): 11091116. doi:10.2493/jjspe.77.1109. ISSN 0912-0289

  158420194291297doi:10.11499/sicejl.58.291ISSN 1883-8170

48SIG16(CVIM19)200711124ISSN 1882-7810

(SIFTHOG)13200812916

Jiao, Licheng (2019). "A Survey of Deep Learning-Based Object Detection". IEEE Access. 7: 128837128868. doi:10.1109/ACCESS.2019.2939201. 20201123

Aziz, Lubna; Haji Salam, Md. Sah Bin; Sheikh, Usman Ullah; Ayub, Sara (2020). "Exploring Deep Learning-Based Architecture, Strategies, Applications and Current Trends in Generic Object Detection: A Comprehensive Review". IEEE Access. 8: 170461170495. doi:10.1109/ACCESS.2020.3021508. ISSN 2169-3536

Wu, Xiongwei; Sahoo, Doyen; Hoi, Steven C.H. (20207). "Recent advances in deep learning for object detection". Neurocomputing (). 396: 3964. doi:10.1016/j.neucom.2020.01.085

[]







[]


Tensorflow  

TORCHVISION OBJECT DETECTION FINETUNING TUTORIAL