9日前
コンテキストに配慮したブロックネットによる小物体検出
{Mingliang Xu, Ling Shao, Luming Zhang, Bing Zhou, Zhimin Gao, Xiaoheng Jiang, Pei Lv, Lisha Cui}
要約
最先端の物体検出器は、通常、入力画像を段階的にダウンサンプリングし、最終的に小さな特徴マップで表現するが、この過程では空間情報が失われ、小物体の表現能力が低下する。本稿では、高解像度かつ強力な意味的特徴マップを構築することで、小物体検出性能を向上させるため、コンテキストに配慮したブロックネットワーク(CAB Net)を提案する。高空間解像度の特徴マップの表現能力を内部的に強化するため、精巧に設計されたコンテキストに配慮したブロック(CAB)を導入した。CABは、ピラミッド型の拡張畳み込み(pyramidal dilated convolutions)を用いて、特徴マップの元の解像度を維持しつつ、複数レベルの文脈情報を統合する。その後、ダウンサンプリング係数が比較的小さい(例:8)である切断されたバックボーンネットワーク(例:VGG16)の終端にCABを接続し、その後のすべての層を除去する。これにより、CAB Netは小物体の基本的な視覚パターンと意味的情報を両方捉えることができ、小物体検出性能の向上を実現する。ベンチマークとして用いられるTsinghua-Tencent 100KおよびAirportデータセットにおける実験結果から、CAB Netは他の最先端の検出器と比較して大幅な性能向上を達成しつつ、リアルタイム速度を維持していることが示された。これにより、CAB Netが小物体検出において非常に有効であることが実証された。