2ヶ月前

遮断認識インスタンスセグメンテーションを用いた二層ネットワークアーキテクチャ

Ke, Lei ; Tai, Yu-Wing ; Tang, Chi-Keung
遮断認識インスタンスセグメンテーションを用いた二層ネットワークアーキテクチャ
要約

高度に重複する画像オブジェクトのセグメンテーションは、通常、実際のオブジェクト輪郭と被塞界境界(occlusion boundaries)を区別する情報が画像には存在しないため、困難です。従来のインスタンスセグメンテーション手法とは異なり、画像形成を2つの重複するレイヤーの合成としてモデル化し、上位レイヤーで被塞界オブジェクト(occluders)を検出し、下位レイヤーで部分的に被塞されたインスタンス(occludees)を推論する二層畳み込みネットワーク(Bilayer Convolutional Network: BCNet)を提案します。この二層構造による被塞関係の明示的なモデリングは、被塞界と被塞されたインスタンスの境界を自然に分離し、マスク回帰時にそれらの相互作用を考慮します。我々は、完全畳み込みネットワーク(Fully Convolutional Network: FCN)とグラフ畳み込みネットワーク(Graph Convolutional Network: GCN)という2つの一般的な畳み込みネットワーク設計を使用して、二層構造の効果を調査しました。さらに、画像内のインスタンスを個別の学習可能な被塞界クエリと被塞クエリとして表現することで、ビジョントランスフォーマー(Vision Transformer: ViT)を使用して二層分離を定式化しました。一段階・二段階およびクエリベースの物体検出器において、さまざまなバックボーンやネットワーク層選択肢を使用した大規模かつ一貫した改善が、広範な実験を通じて示され、特に重度の被塞状況において二層分離の汎化能力が確認されました。COCO, KINS, COCOA などの画像インスタンスセグメンテーションベンチマークや YTVIS, OVIS, BDD100K MOTS などのビデオインスタンスセグメンテーションベンチマークでの評価結果も同様です。コードとデータは https://github.com/lkeab/BCNet で利用可能です。

遮断認識インスタンスセグメンテーションを用いた二層ネットワークアーキテクチャ | 最新論文 | HyperAI超神経