共通显著物体検出の再考

本論文では、画像における共通注目物体検出(CoSOD)問題について包括的な研究を行います。CoSODは、注目物体検出(SOD)の新興かつ急速に発展している拡張版であり、複数の画像群から共通して出現する注目物体を検出することを目指しています。しかし、既存のCoSODデータセットにはしばしば深刻なデータバイアスが存在し、各画像群が視覚的に類似した注目物体を含むという前提になっています。このバイアスは、実際の状況において類似性が通常セマンティックまたは概念的な場合に、既存データセットで訓練されたモデルの理想的な設定と効果性が損なわれる原因となります。この課題に対処するために、まず新しいベンチマークである「CoSOD3k in the wild」を導入します。このベンチマークは大量のセマンティックコンテキストを必要とし、既存のCoSODデータセットよりも困難です。私たちのCoSOD3kは3,316枚の高品質で慎重に選択された画像から構成され、160グループに分類され階層的なアノテーションが付加されています。これらの画像は幅広いカテゴリ、形状、オブジェクトサイズ、背景を持つもので構成されています。次に、既存のSOD技術を統合して一貫性があり学習可能なCoSODフレームワークを構築します。これはこの分野で長年待望されていたものです。具体的には、我々は新たなコエンハンストメントネットワーク(CoEG-Net)を提案します。これは我々の先行モデルであるEGNetに共同注意投影戦略(co-attention projection strategy)を追加することで高速な共通情報学習を可能にするものです。CoEG-Netは大規模な既存SODデータセットを十分に活用し、モデルのスケーラビリティと安定性を大幅に向上させます。さらに、40種類の最先端アルゴリズムについて包括的に要約し、そのうち18種類を3つの挑戦的なCoSODデータセット(iCoSeg, CoSal2015, および私たちのCoSOD3k)上でベンチマーク評価を行い詳細な(つまりグループレベルでの)性能分析結果を報告します。最後に、CoSODに関する課題と今後の研究方向性について議論します。私たちは本研究がCoSODコミュニティの成長にとって大きな推進力となることを期待しています。ベンチマークツールボックスおよび結果はプロジェクトページhttp://dpfan.net/CoSOD3K/で公開されています。