物体検出

80クラスの一般的な物体を検出できるCOCOデータセットで学習されたYOLOv3モデルを使用して、OpenCVのディープニューラルネットワークモジュール（DNN）で検出された物体。

物体検出︵ぶったいけんしゅつ、object detection︶は、デジタル画像処理やコンピュータビジョンに関連する技術の一つで、デジタル画像・動画内に映っている特定のクラス︵人間、建物、車といったカテゴリー︶の物体を検出するものである^[1]。物体検出はコンピュータビジョンの基礎的な学問領域であり、画像分類︵英語版︶や顔認識、自動運転など多くの分野でその知見が応用されている^[2]。深層学習︵ディープラーニング︶技術の進展に伴い、物体検出の分野でもR-CNNやYOLO、SSDなどの深層学習を用いた手法が広く使われるようになって精度も大きく向上したが、一方で物体検出分野に特有の技術的な課題や学習・評価に必要なデータセット作成における課題など、解決されるべき課題も残っている。

概要[編集]

顔検出の事例。画像中の人物の顔が矩形で検出されている。

物体検出は、動画像内に特定の属性を持つ物体が存在するかどうかを検出し、もし存在する場合には各物体の位置と範囲まで推論する技術である^[3]。物体の位置を示す方法として、バウンディングボックス︵英語版︶と呼ばれる物体を取り囲む最小の矩形を用いる方法が使われる^[4]。なお、画像認識一般において、認識対象がもつ属性を記号で表したものをクラスと呼ぶ^[5]。物体検出は画像理解、コンピュータビジョンの分野において基礎的な技術であり、セグメンテーション︵英語版︶やシーン理解、物体追跡︵英語版︶、画像キャプション付与といった他のより複雑な画像認識タスクを解決するための基礎である^[3]。また実世界への応用についても、セキュリティ、自動運転、画像検索、ロボットビジョン等幅広い^[2]^[3]。類似の画像認識技術に、画像内の物体のクラスを識別するクラス分類タスクがある^[6]が、物体検出ではクラスだけでなく物体の位置まで認識する必要があるため、検出器を作成するのはより難しい^[7]。また、タスクの特性上、認識対象外である背景の範囲に比べて認識対象の物体が少ないことも、物体検出が難しい一因である^[7]。動画像から異なる物体を認識するためには、動画像から意味的でロバストな特徴表現︵英語版︶を抽出する必要がある^[2]。例えば自動車を撮影した画像間で比較しても、セダンやワゴン、トラックといった外見的な違いがあるものを自動車として検出しなければならない^[8]。実世界には同じクラスの物体でも多様な形状が考えられるし、形状が変化する場合も考えられる^[9]が、そうしたものを同じクラスで検出できるような頑健な特徴抽出手法が必要とされるのである^[10]^[注釈 1]。2004年にスケール不変な特徴抽出手法であるSIFT︵英語版︶^[12^]が発表されて以降、研究者がよりロバストな特徴量を設計し物体検出に応用するのが盛んとなった^[3]が、2012年に深層ニューラルネットワーク(DNN)を用いた手法が画像分類において従来の記録を大きく上回る精度を記録した^[13]ことで、物体検出でもDNNが活用されるようになり^[14]、2019年頃になってもDNNを用いた物体検出手法がなお盛んに研究されている^[3]。

歴史[編集]

初期[編集]

1970年代には既に物体検出を取り上げた研究が存在していた^[15^]。初期の研究では、テンプレートマッチングや画像を分割し個別に検出アルゴリズムを使用するシンプルな手法が用いられており、顔検出などが対象になっていた^[3]。1990年頃までは幾何的なアプローチが主であったが、その後はサポートベクターマシン︵SVM︶やニューラルネットワーク等の統計的な手法の研究が盛んとなっていく^[3]。

SIFT以降[編集]

上述したように動画像から異なる物体を認識するためには、意味的でロバストな特徴表現を動画像から得ることが重要である。回転、照明条件の違い、障害物の有無といった見た目の変化にも不変な局所的な特徴表現を学習する手法の研究が進んでいく^[3]。そうした中で2004年にスケール不変な特徴抽出手法であるSIFT^[12]が成功を収める等、研究者たちが様々な条件に不変な特徴抽出手法を提案するようになる^[3]。2001年に提案されたHaar-Like特徴︵英語版︶に基づくViola–Jones物体検出フレームワーク︵英語版︶^[16]は、主に顔検出への応用を目的とした手法で、予め作成した弱識別機を複数組み合わせ、識別器同士で互いの弱点を補い合い全体で一つの識別機を成す。但しこれらの手法のように研究者が手で特徴抽出手法を設計することについては、非常に多様な外観を持つタスクに対して完全に対処できる特徴量を得ることは難しい^[2]し、最適である保証もない^[17^]とされる。

深層学習による革新[編集]

画像認識の分野では物体検出に限らず、上述のSIFTのような研究者がタスクの性質を分析し手作業で設計された手法が支持されていた^[1^3]。畳み込みニューラルネットワーク︵CNN︶を用いた手法は研究されていたものの、局所最適解を得られる保証がなかったり学習が収束する保証がなかったこともCNNが活用されなかった背景である^[18^]。そうした状況の中、2012年にAlex Krizhevskyらが画像認識︵画像分類︶のコンテストであるILSVRC2012で提出したCNNを用いたシステムが、従来の画像認識システムを大幅に超える精度を記録した^[13]。このシステムでは膨大な計算量を前提とし、大量のデータをニューラルネットワークの学習に用いるという特徴がある^[13]。GPU等の技術的な計算資源の向上も相まって^[1^8]、深層学習の活用が現実味を帯びてきた。画像分類タスクにおけるこうしたCNNの成功を物体検出の分野にも応用しようという動きがあり、2014年にはR-CNNと呼ばれる検出システムが発表された。これは従来から存在した物体候補領域提案︵region proposal、動画像内の物体が存在しそうな領域を複数提案するもの︶手法を動画像に施した後、それらの候補領域それぞれにCNNを用いてその領域に対象クラスの物体が存在するか、存在する場合にはその正確なBounding boxの座標を学習するものであった^[14]。欠点として、前段の物体候補領域の提案にはCNNを用いていないことや、後段のクラス分類でも従来の機械学習手法であるSVMを用いていること、また候補領域の提案とクラス・Bounding boxの推論という二段構造になっていることによる推論速度の遅さ等があるが、こうした欠点の存在がその後の改善手法の提案に繋がっていった^[3]。

深層学習以降の進展[編集]

R-CNNの発表後、その欠点を改良した検出システムが発表されていく。2014年に発表されたSPPNet^[19]は、入力として固定サイズの画像しか受け取れないというR-CNNの欠点を解消した^[3^]。2015年に発表されたFast R-CNN^[20]は、事前に画像全体に対してCNNを用いて特徴抽出を行い、そこに候補領域の情報を組み合わせることで、候補領域ごとにCNNを毎回適用しなければならないというR-CNNの欠点を解消した^[2]。さらに2015年に提案されたFaster R-CNN^[21]では、前段の物体候補領域提案の部分がボトルネックとなっていたことに注目し、新たに物体候補領域提案の部分をニューラルネットワークを用いて置き換えた︵Region Proposal Network︵RPN︶と呼ばれる︶。これによりシステム全体がニューラルネットワークを用いて学習できるようになり、大幅な高速化を達成した^[2]。これ以降も、クラス分類・Bouding boxの座標推定に加え、Bounding box内の対象物体の領域を推定するブランチを追加しインスタンスセグメンテーション︵英語版︶を行えるようにしたMask R-CNN^[2^2]等、R-CNNから続く2ステージの検出システムは幅広く研究が進んでいる^[2]。一方で、候補領域を予め抽出し、それについて検出・分類を行うという2ステージの検出システムは計算資源を要するため、特に携帯端末やウェアラブルデバイスといった容量や計算資源の限られた端末での応用が難しいという課題がある^[3]。そこで領域提案などを分離せず、入力からクラス分類・Bouding boxの座標推定までをエンドツーエンドで行う1ステージの検出システムの研究も進められている^[3]^[^2]。2013年に発表されたOverFeat^[23]は、ILSVRC2013の検出部門にて最高記録を達成する。OverFeatは圧倒的な処理速度を達成するが、一方でその精度は2ステージの検出システムであるR-CNNには及ばなかった。その要因としてはOverFeatに用いられる全畳込みニューラルネットワーク︵fully convolutional network︶^[注釈 2]の学習が当時難しかったことが挙げられる^[3]。ただ、OverFeatの特徴は後発のYOLOやSSDに引き継がれた^[3]。2016年に発表されたYOLO^[26]は、画像を任意のピクセルごとのグリッドに区切り、グリッド毎に物体が存在する確率と物体が存在する場合の分類クラスを予測するというものである^[2]。YOLOは処理速度で45fpsを記録した^[注釈 3]。ただしグリッド毎に予測するという性質上、2ステージのFaster R-CNNと比べると位置の正確性は低くなった。特に1つのグリッド内に複数の物体がある場合の検出力が低いという欠点がある^[3]。2016年に発表されたSingle Shot MultiBox Detector︵SSD︶^[27]は、Faster R-CNNに用いられたRPNの考え方を持ち込んだもので、YOLOと比較して処理速度がさらに向上するとともに、精度面でもFaster R-CNNと同等の精度を達成した^[3]。2019年に発表されたEfficientDet^[28]等、1ステージ系でありながら条件によっては2ステージ系のMask R-CNNの精度を上回る^[28]システムも出てきている。

手法[編集]

Microsoft COCO testdevデータセットhttp://mscoco.orgを用いた場合の、様々な検出器^[29]の処理速度と精度の比較︵全ての値は、これらのアルゴリズムの作成者によるhttps://arxiv.orgの記事に記載されている︶

物体検出の手法は一般に、従来の機械学習ベースのアプローチまたは深層学習ベースのアプローチのいずれかに分類される。従来の機械学習をベースにしたアプローチの場合、まず以下のリストにあるような手法を用いて動画像内の﹁特徴﹂を定義し、その上でサポートベクターマシン︵SVM︶などの手法を使用してそれらの特徴が対象物体かそうでないかを分類する必要がある^[3]。一方、深層学習を用いた手法では、﹁特徴﹂を具体的に定義せずともエンドツーエンドで物体検出を行うことができる^[3]。通常、畳み込みニューラルネットワーク︵CNN︶を用いることが多い。2012年に深層学習がクラス分類タスクで大きな成功を収めて以降は、物体検出においても深層学習によるアプローチが主流となっている^[2]^[3]。

古典的な機械学習によるアプローチ[編集]

先述したように、古典的な機械学習をベースにしたアプローチでは、まず画像から特徴量を抽出し、その特徴量を用いてマッチングを行うなどして物体を検出する^[3]^[30]。以下では特に検出手法について断りがない限り、前者の﹁画像から特徴量を抽出する﹂手法について述べている。 Haar-Like特徴︵英語版︶に基づくViola–Jones物体検出フレームワーク︵英語版︶^[31] Haar-Like特徴量は2001年に提案された、主に顔検出︵英語版︶に用いられる特徴量である^[32]。矩形領域内の平均輝度の差に基づく特徴量で^[33]、人間の顔の場合は一般的に鼻筋や頬が明るく、逆に目や口は暗いという共通の特徴があることに着目し、これを捉えるために画像内の明暗の差を特徴としたものである^[32]。この特徴を用いた単純な識別器を大量に生成、選別し、それらをカスケード状に接続(直列に接続すること^[34])して顔の位置を検出する手法がHaar-Like特徴と同時に提案されている^[35]。スケール不変特徴量変換 (SIFT)︵英語版︶^[36] 画像のスケール変換や回転に不変な特徴量を抽出する手法。特徴点を検出するキーポイント検出と、検出された特徴点に対し回転不変な特徴量を記述する特徴量記述の二段構成になっている^[37]^[38]。SIFTの発表後、SIFTが抱える課題を解決するための派生手法が複数提案され、処理の高速化・省メモリ化が図られている^[39]。 HOG特徴量︵英語版︶^[40] 2005年に提案された、人に共通する特徴を捉えるための特徴量^[^32]。SIFT同様一定領域まわりの輝度勾配に基づく特徴量であるが、SIFTが特徴点に着目するのに対しHOG特徴量は領域矩形内の輝度勾配を用いるため物体形状を表現することが可能であり^[4^1]、人検出︵英語版︶に限らず用いられている^[32]^[41]。

深層学習によるアプローチ[編集]

深層学習を用いた物体検出器の概念図。(a)が2ステージ系の一般的な構造を、(b)が1ステージ系の一般的な構造を表している。

領域提案︵R-CNN^[14]、Fast R-CNN^[20]、Faster R-CNN^[21] 、cascade R-CNN^[42^]︶ R-CNNは2014年に提案された手法であり、CNNを用いた検出器としては初めて、それまで用いられていたHOG特徴量をベースとする検出器よりも高い性能を出すことを示した。以降の深層学習を用いた様々な手法の先駆けであり、一般物体検出の進展に大きな影響を与えた^[43]。R-CNNはまず画像内から物体領域の候補となる領域を生成し、その各候補領域に対してCNNを用いて物体かどうかを判定するというものである^[44]。派生手法であるFast R-CNNやFaster R-CNNも同様の構造を引き継ぎ、ボトルネックになっていた部分にCNNを新たに適用できるようにしたり、複数回適用していた処理を一度にできるように改良したものである^[44]。 You Only Look Once︵YOLO︶^[26]^[45]^[46]^[29] 2016年に発表された手法。画像全体を小さなグリッドに分割し、各グリッドに対して物体が存在するかどうかを判定する。物体が存在する場合にはその物体を囲む矩形のサイズとそのクラスを推論する^[^47]。処理の過程で、R-CNN系であったような物体候補領域を生成する必要がないため、入力から出力まで1ステージで行えることが特徴である^[47]^[48]。推論処理で45FPSを達成する等速度が向上した^[49]半面、小さな物体の認識が苦手であったり、異なるスケールやアスペクト比を持つ物体の認識が苦手という欠点もある^[47]。 Single Shot MultiBox Detector︵SSD︶^[27] 2016年に発表された手法。YOLOが抱える課題に対応して改良された1ステージ系の手法。YOLOでは物体位置の推定にネットワークの最終層で得られる特徴量しか用いなかったのに対し、SSDでは入力に近い層の特徴量も用いたことが特徴で、より小さいサイズの物体の検出にも対応できるようになった^[50]^[51]。また、複数のアスペクト比を持つ矩形内で畳み込みを行うことで、異なるスケール・アスペクト比を持つ物体の検出にも頑健になった^[52]。 Single-Shot Refinement Neural Network for Object Detection (RefineDet) ^[53] 2017年に発表された手法。1ステージの手法で、前半のブロックで物体の有無及びおおまかな位置を検出し、後半のブロックで具体的な物体位置やクラスまで検出する^[53]。この2ブロックは接続されており、全体としてはend-to-endで学習ができる^[54^]。設計者は2ステージ型の検出器の機構を参考にしたと述べており^[53]、このように2つのステップを設けることで、より正確な位置を検出することができる^[54]。 Retina-Net^[55]^[56] 2018年に発表された検出モデル。検出タスクについては、検出対象となる前景よりもそれ以外の背景の出現頻度が非常に高いという特徴があり^[55]、それを解決するために、検出が難しい事例をより重視してモデルの最適化に反映するFocal lossと呼ばれる損失関数を導入したことが特徴^[57]^[58]。モデルの構造は1ステージの検出器とFeature Pyramid Network(FPN)と呼ばれる物体検出で標準的に用いられる特徴抽出器を組み合わせたもの^[58]で、開発者は従来の2ステージ系の検出器と同等の精度を達成したとしている^[55]。 Deformable convolutional networks︵DCN︶^[59]^[60] 2017年に発表された手法。通常の畳み込みニューラルネットワークを用いる場合、正方形あるいは長方形であるフィルタの形状に検出能力が制約されてしまう。そこで本手法では、フィルタを変形可能なネットワークを設計し、物体検出と同時にフィルタの変形具合も学習する^[7]ことで、物体の形状をより的確に認識できるようにしている^[61]。

データセット[編集]

機械学習においては主にモデルの学習とその評価について、データセットを用いる^[62]。一般に提案手法を公平に評価するため、一定の難易度があるデータセットをベンチマークとして用いることは重要である^[63]。また深層学習は大量の学習データを必要とするが、一般に物体検出のためのラベル付けは画像分類のラベル付けと比べると、画像に含まれる物体の種別を選択するだけでなく、その位置まで特定して描画する必要があり難易度がより高い^[64]。また、バウンディングボックスの付与はより物体領域を正確に囲うほど良いため、品質とコストの釣り合いを取ることが難しい^[64]。機械学習全体の課題として大規模なデータセットを単独で構築することが難しいということもあり^[6^5]、ラベル付けが行われた大量のデータにオンラインでアクセスできる環境が整うことで研究・開発が進むという側面もある^[3]。例えば2017年に発表された顔検出のためのデータセットであるUMD Faces^[66]というデータセットは、従来の大規模なデータセットの中には公表されていないものもあり、特に研究機関が自由にアクセスできる動画を含むデータセットを作成することを一つの目的として発表したとしている^[66]。また特に研究が盛んな特定の分野では、その分野に特有の物体を詳細にラベル付けしたデータセットが作成されることもある^[2]。以下では一般物体検出のためのデータセットに加え、分野別のデータセットについても述べる。

一般物体検出[編集]

動画像に多く出現する一般的な物体を広範なカテゴリに分類して取り揃えたデータセットを紹介する。

一般物体検出　データセット一覧
名称	発表年	枚数	クラス数^{[注釈 4]}	特徴・備考
Pascal VOC^[67]	2005	11,540	20	2005年に4クラスでスタートした後、現在の20クラスに増加。後発のデータセットに比べて小規模^[3]。
ImageNet^[68]	2009	1,400万枚以上	21,841	サブセットであるImageNet1000は、コンペティションのベンチマークのデータセットとして使用されている^[3]。
MS COCO^[69]	2014	約328,000	91	ImageNetが実世界に適応できないとの批判に対応し、小さな物体を多く含んだり遮蔽物（オクルージョン）が多いという改善を施したデータセット^[69]。2019年現在、物体検出におけるベンチマークの標準とされる^[3]。
OpenImage^[70]	2017	約900万枚	600	2019年現在、最大規模のデータセット^[3]。ラベル付与を半自動化し、人間の目でそれらをチェックしている^[70]のが特徴。

顔検出[編集]

顔認識は本人認証のための生体認証技術であり、同時に軍事、セキュリティなど多くの分野に応用されている技術^[71]である。一般物体検出タスクと比較して、より広い範囲のスケールの対象物を認識する必要があること、一口に顔といってもパーツの配置や肌の色の違い等によって同じものが一つとして存在しないことといった違いがある^[2]。

顔検出　データセット一覧
名称	発表年	枚数	特徴・備考
UMD Faces - Video^[72]	2017	22,075	動画を含む
MegaFace^[73]	2017	約470万
MS-Celeb-1M^[74]	2016	約100万	Microsoftが開催したコンペティションで使用されたデータセット

道路シーン[編集]

物体検出の実世界への応用分野の一つとして自動運転が挙げられる。これは自動運転において、道路上の信号機や標識を認識することが必要だからである^[75]。以下では標識や信号機を含むデータセットを挙げている。

道路シーン　データセット一覧
名称	発表年	枚数	クラス数	特徴・備考
CityScapes^[76]	2016	約5,000	30	ドイツの各都市の道路シーン画像を収集　セグメンテーションラベルが付与されている
KITTI^[77]	2012	約15,000	16	他にOptical Flowの情報や、3次元のアノテーションが付与されたデータも存在する
LISA^[78]	2012	約6,610	47	アメリカで撮影された道路シーン　動画を含むバージョンも存在する

評価指標[編集]

物体検出タスクにおけるIoUの計算例。

物体検出システムの性能を測る指標としては、大きく2つの視点から挙げることができる。1つが処理速度であり、もう1つが精度である。特に処理速度を測る指標としてフレームパー毎秒(FPS)、精度を測る指標として適合率と再現率︵英語版︶がある^[3]。以上の指標は物体検出に限らず用いられる指標であるが、物体検出に特有の数値としてIoU︵英語版︶(Intersection over Union)がある。これはある推定結果と対応する正解がどの程度重なっているかを表す数値であり、完全に一致しているときには1、全く重なる部分がないときには0となる。実際の検出システムでは完全に正解と一致する結果を得ることは困難であるため、実運用評価の際にはこのIoUが一定値以上の結果を正解とみなし精度を測ることになる^[63]^[3]。また、適合率と再現率の他に、これらを組み合わせた平均適合率︵Average Precision, AP︶も用いられることが多い^[3]。推論時には推論した結果とともにどの程度の確からしさでその検出結果を得たかという指標も返されるが、この確からしさも用いて計算される指標である。適合率と再現率は一般にトレードオフの関係にある︵後述︶^[79]ため、双方の要素を取り込んだ平均適合率が使われる^[3]。 ●適合率︵Presicion︶一般に以下の式で計算される。ここで、TPは推論結果の中で実際に正解しているもの、FPは推論結果の中で実際には正解でないものの個数である。

{\mathsf {Precision}}={\frac {TP}{TP+FP}}

{\mathsf {Precision}}={\frac {TP}{TP+FP}}

適合率は推論結果のうち正解がどれだけ含まれているか、すなわち﹁どれだけ正解でないものを誤って正解と検出しないか﹂を表す指標である。 ●再現率︵Recall︶一般に以下の式で計算される。ここで、FNは検出しなかったものの実際には正解であるような見逃した個数を表す。

{\mathsf {Recall}}={\frac {TP}{TP+FN}}

{\mathsf {Recall}}={\frac {TP}{TP+FN}}

再現率は全ての正解として扱われるべきものの中で実際にどれだけ推論できたか、すなわち﹁どれだけ正解を見逃さなかったか﹂を表す指標である。式からも明らかであるが、見逃しを減らすためにより多くのものを検出しようとすればするほど再現率は高まるが、その分本来正解でないものを正解としてしまうパターンが増えるため適合率は下がりがちである。他方で、過検出を減らすために検出結果を絞り込むと適合率は高まるが、その分本来正解であるべきものを見逃すパターンが増えるため再現率は下がりがちである。すなわち、適合率と再現率はトレードオフの関係にある^[79]。

課題[編集]

本節では物体検出における課題を挙げる。なお、2020年現在物体検出の研究は深層学習を用いたものが主であり、本節で挙げる課題も深層学習を用いることを前提としているものが多い。

回転[編集]

DNNは入力画像に幾何的な変換を加えた場合、得られる特徴マップは不変ではない^[80]。平行移動的な幾何学変化にはある程度強いものの、回転やスケールの変化などが大きいと結果が変化してしまう^[3]。そのため、幾何的なロバスト性を獲得するために様々な手法が提案されている^[80]。回転変換へのロバスト性については、テキスト認識^[^81]や航空画像からの検出^[82]といった分野では研究例があり、データセットが作成された例^[83]^[84]もある。一方で、一般物体に関する大規模データセットは回転画像を含んでいない^[67]^[6^8]^[69]^[70]ため、一般物体についての研究は限られている^[^3]。

障害物︵オクルージョン︶[編集]

実世界の画像にはしばしば、対象物体を遮蔽するような障害物が存在することがあり、対象物体からの情報を損なってしまう^[3]。対策手法として、予めオフセット^[注釈 5]を見込んだ畳み込み、プーリング^[注釈 6]を行うもの^[86]が挙げられる。また、GAN等の生成ネットワークを用いて障害物を意図的に作る手法も提案されている^[8^7]が、オクルージョンを巡る課題はまだ解決されていない^[3]。

画像の劣化[編集]

画像に生じるノイズも課題の一つである。原因として、照明条件、画像圧縮によるもの、安価な端末を用いることによるもの等が挙げられる^[^3]。しかしこれまで作られた大規模データセットは高画質であることが前提であり、従来手法もこれらの画像の劣化を考慮していないことが多い^[3]。この他にも、物体検出に固有の課題として、検出対象でない﹁背景﹂に分類されるクラスが圧倒的に多くなってしまうという、クラス間での正解数のアンバランス等が挙げられる^[3]^[7]。

脚注[編集]

[脚注の使い方]

注釈[編集]

(一)^ 当然ながら、特徴表現の抽出手法を適切に選択する以外に、頑健な認識モデルを構築することやそもそも学習に使うデータセットの中身を多様化することも必要である^[11]。 (二)^ クラス分類などに用いられる畳み込みニューラルネットワークでは、入力画像を徐々に畳み込みある程度サイズが小さくなったところで、全結合層と呼ばれる層を用いて、1次元の出力を得ることが多い^[24]。それに対してfully convolutional networkでは全結合層を用いない。そのため出力は1次元にならず空間的な情報が残るという特徴がある^[25]。 (三)^ 2ステージ系のFaster R-CNNの処理速度は5fpsである^[21]。 (四)^ 物体検出においては、識別対象となる物体種別の数を表す。例えば4クラスのデータセットという場合、4種類の物体(とそれらに該当しない背景)がラベル付けされていることを意味する。 (五)^ 一定の値だけ座標をずらすこと。 (六)^ ダウンサンプリング手法の1つ。機械学習でよく使われる例としては、平均値プーリングや最大値プーリングと呼ばれるものがある^[^85]。それぞれ例えば周辺2x2の範囲のグリッド内の値の平均値や最大値を代表として1つのグリッドに押し込むことで、特徴マップの全体のサイズをこの場合では1/4に圧縮することができる。これにより、画像全体に散らばった特徴を圧縮することができる。

出典[編集]

(一)^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224. (二)^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^lZhao, Zhong-Qiu (2019). “Object Detection with Deep Learning: A Review”. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3212-3232. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865. (三)^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u ^v ^w ^x ^y ^z ^aa ^ab ^ac ^ad ^ae ^af ^ag ^ah ^ai ^aj ^akLi Liu (2020). “Deep Learning for Generic Object Detection: A Survey”. International Journal of Computer Vision 128: 261-318. doi:10.1007/s11263-019-01247-4. (四)^ Olga Russakovsky (2015). “ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision 115 (3): 211-252. arXiv:1409.0575v2. doi:10.1007/s11263-015-0816-y. (五)^ 佐藤敦﹁安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線)﹂﹃人工知能﹄第29巻第5号、人工知能学会、2014年、448-455頁、doi:10.11517/jjsai.29.5_448。 (六)^ Zhang, Xin; Yang, Yee-Hong; Han, Zhiguang; Wang, Hui; Gao, Chao (2013-10). “Object class detection: A survey” (英語). ACM Computing Surveys 46 (1): 1–53. doi:10.1145/2522968.2522978. ISSN 0360-0300 2021年4月5日閲覧。. (七)^ ^a ^b ^c ^dWu, Sahoo & Hoi 2020, p. 20. (八)^ 藤吉 2008, p. 9. (九)^ 柳井 2007, p. 4. (十)^ 藤吉 2008, p. 9-10. (11)^ 柳井 2007, p. 1. (12)^ ^a ^bDavid G. Lowe (2004). “Distinctive Image Features from Scale-Invariant Keypoints” (pdf). e International Journal of Computer Vision 60: 91-110. doi:10.1023/B:VISI.0000029664.99615.94 2020年11月20日閲覧。. (13)^ ^a ^b ^c ^dKrizhevsky, Alex (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems 1: 1097–1105. (14)^ ^a ^b ^cRoss, Girshick (2014). “Rich feature hierarchies for accurate object detection and semantic segmentation”. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (IEEE): 580–587. arXiv:1311.2524. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. (15)^ M.A. Fischler (1973). “The Representation and Matching of Pictorial Structures”. IEEE Transactions on Computers C-22 (1): 67-92. doi:10.1109/T-C.1973.223602. (16)^ VIOLA P. (2002). “Robust Real-time Object Detection”. International Journal of Computer Vision 57 (2): 137-154. (17)^ 藤吉 2019, p. 293. (18)^ ^a ^bQingchen Zhang (2018). “A survey on deep learning for big data”. Information Fusion 42: 146-157. doi:10.1016/j.inffus.2017.10.006. ISSN 1566-2535. (19)^ K. He (2015). “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 37 (9): 1904-1916. arXiv:1406.4729v4. doi:10.1109/TPAMI.2015.2389824. (20)^ ^a ^bGirschick, Ross (2015). “Fast R-CNN”. Proceedings of the IEEE International Conference on Computer Vision: 1440–1448. arXiv:1504.08083. Bibcode: 2015arXiv150408083G. (21)^ ^a ^b ^cShaoqing, Ren (2015). “Faster R-CNN”. Advances in Neural Information Processing Systems. arXiv:1506.01497. (22)^ Kaiming He (2018). “Mask R-CNN”. ICCV2017. arXiv:1703.06870. (23)^ Sermanet, Pierre (2013). “OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks”. International Conference on Learning Representations. (24)^ Zhao, Rui; Yan, Ruqiang; Chen, Zhenghua; Mao, Kezhi; Wang, Peng; Gao, Robert X. (2019-01). “Deep learning and its applications to machine health monitoring” (英語). Mechanical Systems and Signal Processing 115: 213–237. arXiv:1612.07640. doi:10.1016/j.ymssp.2018.05.050 2020年11月24日閲覧。. (25)^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor (2015-06). “Fully convolutional networks for semantic segmentation”. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Boston, MA, USA: IEEE): 3431–3440. arXiv:1411.4038. doi:10.1109/CVPR.2015.7298965. ISBN 978-1-4673-6964-0 2020年11月24日閲覧。. (26)^ ^a ^bRedmon, Joseph (2016). “You only look once: Unified, real-time object detection”. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1506.02640. Bibcode: 2015arXiv150602640R. (27)^ ^a ^bLiu, Wei (October 2016). “SSD: Single shot multibox detector”. Computer Vision – ECCV 2016. Lecture Notes in Computer Science. 9905. 21–37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3 (28)^ ^a ^bMingxing Tan (2020). “EfficientDet: Scalable and Efficient Object Detection”. CVPR2020: 10778-10787. arXiv:1911.09070. doi:10.1109/CVPR42600.2020.01079. (29)^ ^a ^bBochkovskiy, Alexey (2020). "Yolov4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 [cs.CV]。 (30)^ 内田 2012, p. 13. (31)^ Viola, P.; Jones, M. (2001). “Rapid object detection using a boosted cascade of simple features”. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001 (Kauai, HI, USA: IEEE Comput. Soc) 1: I–511–I-518. doi:10.1109/CVPR.2001.990517. ISBN 978-0-7695-1272-3. (32)^ ^a ^b ^c ^d藤吉 2019, p. 292. (33)^ 森川健一郎、村松大吾、小方博之﹁Haar-like特徴とエッジ検出を用いた仮名漢字領域アルゴリズムの開発﹂﹃精密工学会学術講演会講演論文集﹄2012年度精密工学会春季大会、精密工学会、2012年、759–760頁。doi:10.11522/pscjspe.2012S.0.759.0。 (34)^ 稲垣宏樹、江口一彦﹁ドライブレコーダーからの歩行者認識技術の研究﹂﹃愛知工業大学研究報告﹄第45号、愛知工業大学、2010年、95-101頁、ISSN 18833217、NAID 40017333781。 (35)^ 山内悠嗣、山下隆義、藤吉弘亘﹁画像からの統計的学習手法に基づく人検出﹂﹃電子情報通信学会論文誌﹄第96巻第9号、2013年9月、2017–2040頁。ISSN 1880-4535。 (36)^ Lowe, D.G. (1999). “Object recognition from local scale-invariant features”. Proceedings of the Seventh IEEE International Conference on Computer Vision (Kerkyra, Greece: IEEE): 1150–1157 vol.2. doi:10.1109/ICCV.1999.790410. ISBN 978-0-7695-0164-2. (37)^ FUJIYOSHI & AMBAI 2011, p. 1109. (38)^ 佐川 2012, p. 6. (39)^ FUJIYOSHI & AMBAI 2011, p. 1115. (40)^ Dalal, Navneet (2005). “Histograms of oriented gradients for human detection”. Computer Vision and Pattern Recognition 1. (41)^ ^a ^b藤吉 2008, p. 14. (42)^ Cai, Zhaowei; Vasconcelos, Nuno (2019). “Cascade R-CNN: High Quality Object Detection and Instance Segmentation”. IEEE Transactions on Pattern Analysis and Machine Intelligence: 1–1. doi:10.1109/TPAMI.2019.2956516. ISSN 0162-8828. (43)^ Jiao 2019, p. 128839. (44)^ ^a ^bNikhil Yadav; Binay, Utkarsh (2017). “Comparative Study of Object Detection Algorithms” (PDF). International Research Journal of Engineering and Technology (IRJET) 4 (11): 586-591. ISSN 2395-0056 2021年3月29日閲覧。. (45)^ Redmon, Joseph (2017). "YOLO9000: better, faster, stronger". arXiv:1612.08242 [cs.CV]。 (46)^ Redmon, Joseph (2018). "Yolov3: An incremental improvement". arXiv:1804.02767 [cs.CV]。 (47)^ ^a ^b ^cWu, Sahoo & Hoi 2020, p. 9. (48)^ Aziz et al. 2020, p. 170472. (49)^ Aziz et al. 2020, p. 170473. (50)^ Wu, Sahoo & Hoi 2020, p. 10. (51)^ Aziz et al. 2020, p. 170474. (52)^ Wu, Sahoo & Hoi 2020, p. 9-10. (53)^ ^a ^b ^cZhang, Shifeng (2018). “Single-Shot Refinement Neural Network for Object Detection”. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203–4212. arXiv:1711.06897. Bibcode: 2017arXiv171106897Z. (54)^ ^a ^bAziz et al. 2020, p. 170475. (55)^ ^a ^b ^cLin, Tsung-Yi (2020). “Focal Loss for Dense Object Detection”. IEEE Transactions on Pattern Analysis and Machine Intelligence 42 (2): 318–327. arXiv:1708.02002. Bibcode: 2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. (56)^ Pang, Jiangmiao; Chen, Kai (4 April 2019). "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701v1 [cs.CV]。 (57)^ Lin, Tsung-Yi (2020). “Focal Loss for Dense Object Detection”. IEEE Transactions on Pattern Analysis and Machine Intelligence 42 (2): 318–327. arXiv:1708.02002. Bibcode: 2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. (58)^ ^a ^bMandhala, Venkata Naresh; Bhattacharyya, Debnath; B., Vamsi; Rao N., Thirupathi (2020). “Object Detection Using Machine Learning for Visually Impaired People”. International Journal of Current Research and Review 12 (20): 157–167. doi:10.31782/ijcrr.2020.122032. ISSN 2231-2196. (59)^ Zhu, Xizhou (2018). "Deformable ConvNets v2: More Deformable, Better Results". arXiv:1811.11168 [cs.CV]。 (60)^ Dai, Jifeng (2017). "Deformable Convolutional Networks". arXiv:1703.06211 [cs.CV]。 (61)^ Aziz et al. 2020, p. 170476. (62)^ 柳井 2007, p. 8. (63)^ ^a ^bJiao 2019. (64)^ ^a ^bHao Su, Jia Deng, Li Fei-Fei. Crowdsourcing Annotations for Visual Object Detection (Report). HCOMP@AAAI 2012. pp. 40–46. 2021年3月24日閲覧。 (65)^ 柳井 2007, p. 16. (66)^ ^a ^bAnkan Bansal (2017). “UMDFaces: An Annotated Face Dataset for Training Deep Networks”. 2017 IEEE International Joint Conference on Biometrics (IJCB): 464-473. arXiv:1611.01484. doi:10.1109/BTAS.2017.8272731. (67)^ ^a ^bMark Everingham (2015). “The PASCAL Visual Object Classes Challenge: A Retrospective”. International Journal of Computer Vision 111: 98–136. doi:10.1007/s11263-014-0733-5. (68)^ ^a ^bJia Deng (2009). “ImageNet: A large-scale hierarchical image database” (pdf). 2009 IEEE Conference on Computer Vision and Pattern Recognition: 248-255. doi:10.1109/CVPR.2009.5206848 2020年11月23日閲覧。. (69)^ ^a ^b ^cTsung-Yi Lin (2014). “Microsoft COCO: Common Objects in Context”. ECCV2014: 740–755. arXiv:1405.0312. doi:10.1007/978-3-319-10602-1_48. (70)^ ^a ^b ^cAlina Kuznetsova (2020). “The Open Images Dataset V4”. ICCV 128 (40). arXiv:1811.00982. doi:10.1007/s11263-020-01316-z. (71)^ Iacopo Masi (2018). “Deep Face Recognition: A Survey”. 2018 31st SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI): 471-478. arXiv:1804.06655. doi:10.1109/SIBGRAPI.2018.00067. (72)^ Ankan Bansal (2017). “The Do’s and Don’ts for CNN-based Face Verification”. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW): 2545-2554. arXiv:1705.07426. doi:10.1109/ICCVW.2017.299. (73)^ Aaron Nech (2017). “Level Playing Field for Million Scale Face Recognition”. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 3406-3415. doi:10.1109/CVPR.2017.363. (74)^ Yandong Guo (2016). “MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition”. ECCV 2016. arXiv:1607.08221. doi:10.1007/978-3-319-46487-9_6. (75)^ Alex Pon (2018). “A Hierarchical Deep Architecture and Mini-batch Selection Method for Joint Traffic Sign and Light Detection”. 2018 15th Conference on Computer and Robot Vision (CRV): 102-109. arXiv:1806.07987. doi:10.1109/CRV.2018.00024. (76)^ M. Cordts (2016). “The Cityscapes Dataset for Semantic Urban Scene Understanding”. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. (77)^ Andreas Geiger (2012). “Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite”. Conference on Computer Vision and Pattern Recognition (CVPR)2012. (78)^ Andreas Mogelmose (2012). “Vision-Based Traffic Sign Detection and Analysis for Intelligent Driver Assistance Systems: Perspectives and Survey”. IEEE Transactions on Intelligent Transportation Systems 13 (4): 1484-1497. doi:10.1109/TITS.2012.2209421. (79)^ ^a ^bPowers, David (2011). “Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation”. J. Mach. Learn. Technol 2. arXiv:2010.16061. doi:10.9735/2229-3981. (80)^ ^a ^bKarel Lenc (2015). “Understanding image representations by measuring their equivariance and equivalence” (pdf). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 991-999. doi:10.1109/CVPR.2015.7298701 2020年11月23日閲覧。. (81)^ Jianqi Ma (2018). “Arbitrary-Oriented Scene Text Detection via Rotation Proposals”. IEEE Transactions on Multimedia 20 (11): 3111-3122. arXiv:1703.01086. doi:10.1109/TMM.2018.2818020. (82)^ Jian Ding (2019). “Learning RoI Transformer for Oriented Object Detection in Aerial Images”. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): 2844-2853. arXiv:1812.00155. doi:10.1109/CVPR.2019.00296. (83)^ Gui-Song Xia (2018). “DOTA: A Large-Scale Dataset for Object Detection in Aerial Images”. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition: 3974-3983. arXiv:1711.10398. doi:10.1109/CVPR.2018.00418. (84)^ Zikun Liu (2017). “A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines”. the 6th International Conference on Pattern Recognition Applications and Methods (ICPRAM) 1: 324-331. doi:10.5220/0006120603240331. (85)^ 長瀬, 准平; 石渡, 哲哉 (2019-06-01). “スキップ接続によるプーリング層の構成および表現力に基づくそれらのモデルの解析”. 人工知能学会全国大会論文集 JSAI2019: 1-4. doi:10.11517/pjsai.JSAI2019.0_1Q3J202. (86)^ Jifeng Dai (2017). “Deformable Convolutional Networks”. 2017 IEEE International Conference on Computer Vision (ICCV): 764-773. arXiv:1703.06211. doi:10.1109/ICCV.2017.89. ISSN 2380-7504. (87)^ Xiaolong Wang (2017). “A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection”. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 3039-3048. arXiv:1704.03414. doi:10.1109/CVPR.2017.324.

参考文献[編集]

●佐川立昌、石川博﹁2群︵画像・音・言語︶-- 2編︵パターン認識とビジョン︶2章画像特徴抽出・照合 2-1 特徴抽出 (PDF)﹂﹃知識の森﹄電子情報通信学会、2012年、2–8頁。2021年3月23日閲覧。 ●内田誠一、石川博﹁2群︵画像・音・言語︶-- 2編︵パターン認識とビジョン︶2章画像特徴抽出・照合 2-2 特徴照合 (PDF)﹂﹃知識の森﹄電子情報通信学会、2012年、9–21頁。2021年3月23日閲覧。 ●FUJIYOSHI, Hironobu; AMBAI, Mitsuru (2011年). "Gradient-based Image Local Features". Journal of the Japan Society for Precision Engineering. 77(12): 1109–1116. doi:10.2493/jjspe.77.1109. ISSN 0912-0289。 ●藤吉弘亘﹁リレー解説　機械学習の可能性︽第1回︾機械学習の進展による画像認識技術の変遷﹂﹃計測と制御﹄第58巻第4号、計測自動制御学会、2019年4月、291–297頁。doi:10.11499/sicejl.58.291。ISSN 1883-8170。 ●柳井啓司﹁一般物体認識の現状と今後﹂﹃コンピュータビジョンとイメージメディア﹄第48巻第SIG16(CVIM19)号、2007年11月、1–24頁。ISSN 1882-7810。 ●藤吉弘亘﹁一般物体認識のための局所特徴量(SIFTとHOG)﹂﹃映像メディア処理シンポジウム資料﹄第13巻、2008年12月、9–16頁。 ●Jiao, Licheng (2019年). "A Survey of Deep Learning-Based Object Detection". IEEE Access. 7: 128837–128868. doi:10.1109/ACCESS.2019.2939201. 2020年11月23日閲覧。 ●Aziz, Lubna; Haji Salam, Md. Sah Bin; Sheikh, Usman Ullah; Ayub, Sara (2020年). "Exploring Deep Learning-Based Architecture, Strategies, Applications and Current Trends in Generic Object Detection: A Comprehensive Review". IEEE Access. 8: 170461–170495. doi:10.1109/ACCESS.2020.3021508. ISSN 2169-3536。 ●Wu, Xiongwei; Sahoo, Doyen; Hoi, Steven C.H. (2020年7月). "Recent advances in deep learning for object detection". Neurocomputing (英語). 396: 39–64. doi:10.1016/j.neucom.2020.01.085。

外部リンク[編集]

●Tensorflow チュートリアル物体検出 ●TORCHVISION OBJECT DETECTION FINETUNING TUTORIAL

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[注釈 1]

[12

[13]

[14]

[15

[16]

[17

[18

[19]

[20]

[21]

[2

[23]

[注釈 2]

[26]

[注釈 3]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[4

[42

[43]

[44]

[45]

[46]

[

[48]

[49]

[50]

[51]

[52]

[53]

[54

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[6

[66]

[注釈 4]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[

[82]

[83]

[84]

[注釈 5]

[注釈 6]

[86]

[8

[11]

[24]

[25]

[