3ヶ月前

DPNet:軽量なアテンションを備えたリアルタイム物体検出のためのデュアルパスネットワーク

Quan Zhou, Huimin Shi, Weikang Xiang, Bin Kang, Xiaofu Wu, Longin Jan Latecki
DPNet:軽量なアテンションを備えたリアルタイム物体検出のためのデュアルパスネットワーク
要約

近年、高精度畳み込みニューラルネットワーク(CNN)の圧縮技術は、リアルタイム物体検出分野で顕著な進展を遂げている。検出速度の向上を図るため、軽量型検出器は通常、単一パスバックボーンを採用し、畳み込み層を極力削減している。しかし、単一パスアーキテクチャは連続的なプーリングおよびダウンサンプリング操作を伴うため、粗いかつ不正確な特徴マップが生成されやすく、物体の位置特定には不利となる。一方、ネットワーク容量の制限により、近年の軽量ネットワークは大規模な視覚データを十分に表現する能力に欠ける傾向にある。こうした課題に対処するため、本研究ではリアルタイム物体検出を目的とした双パスアーキテクチャを採用した軽量な注目機構を備えたネットワーク、DPNetを提案する。双パス構造により、高レベルの意味的特徴と低レベルの物体細部情報を並列的に抽出することが可能となる。DPNetは単一パス検出器とほぼ同程度の構造サイズを持つものの、計算コストおよびモデルサイズは著しく増加しない。表現力の強化を図るため、わずかな計算負荷とネットワークパラメータで済む軽量自己相関モジュール(LSCM)を設計した。また、ネック部ではLSCMを拡張して、隣接するスケール特徴間の相互依存関係を捉える軽量クロス相関モジュール(LCCM)を構築した。本研究では、MS COCOおよびPascal VOC 2007データセットを用いて広範な実験を実施した。実験結果から、DPNetは検出精度と実装効率の面で最先端のトレードオフを達成していることが示された。具体的には、MS COCO test-devでは30.5%のAP、Pascal VOC 2007 testセットでは81.5%のmAPを達成し、モデルサイズは約2.5M、計算量は1.04 GFLOPs、入力サイズ320×320の画像に対してそれぞれ164 FPSおよび196 FPSの推論速度を実現した。

DPNet:軽量なアテンションを備えたリアルタイム物体検出のためのデュアルパスネットワーク | 論文 | HyperAI超神経