2ヶ月前

オブジェクト内視:自己監督構造モデリングによる物体認識

Zhou, Mohan ; Bai, Yalong ; Zhang, Wei ; Zhao, Tiejun ; Mei, Tao
要約

多くの物体認識手法は、判別的な視覚パターンの学習に重点を置きながら、全体的な物体構造を見落としている傾向がある。構造モデリングは重要であるが、通常、大量の手動アノテーションが必要であり、そのため労力がかかる。本論文では、「物体の中を見る」(明示的にかつ内在的に物体構造をモデル化する)方法を提案し、伝統的なフレームワークに自己監督を組み込むことで実現する。我々は、追加のアノテーションや推論速度のコストなしで、認識バックボーンがより堅牢な表現学習のために大幅に強化されることを示す。具体的には、まず同じカテゴリ内のインスタンス間で共有される視覚パターンに基づいて物体を局所化するための物体範囲学習モジュールを提案する。次に、範囲内の相対位置を予測することで物体の内部構造をモデル化する空間コンテキスト学習モジュールを設計する。これらの2つのモジュールは訓練中に任意のバックボーンネットワークに簡単に組み込むことができ、推論時には取り外しが可能である。広範な実験により、我々の「物体の中を見る」アプローチ(Look-Into-Object: LIO)が一般的な物体認識(ImageNet)や細かい特徴を持つ物体認識タスク(CUB, Cars, Aircraft)において大きな性能向上を達成することが示された。また、この学習パラダイムが物体検出やセグメンテーション(MS COCO)などの他のタスクにも非常に汎用性が高いことを示している。プロジェクトページ: https://github.com/JDAI-CV/LIO.