17日前

ISTR：Transformerを用いたエンドツーエンド型インスタンスセグメンテーション

Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Ling Shao, Rongrong Ji

要約

エンド・ツー・エンド（end-to-end）アーキテクチャは、様々な深層学習ベースのコンピュータビジョンモデルの精度を顕著に向上させている。これに伴い、オブジェクト検出のようなタスクでは、非エンド・ツー・エンド的な処理部品（例：非最大抑制（non-maximum suppression））を置き換えることで性能向上が図られてきた。具体的には、二部マッチングに基づくセット損失（set loss）を用いた学習により、非最大抑制を廃止するアプローチが採用されている。しかしながら、オブジェクト検出と比べて出力次元が著しく高い性質を持つインスタンスセグメンテーションにおいては、このようなアプローチは適用が困難である。本論文では、初めてエンド・ツー・エンド型のインスタンスセグメンテーションTransformerとして、ISTR（Instance Segmentation Transformer）を提案する。ISTRは低次元のマスク埋め込み（mask embeddings）を予測し、それらを真のマスク埋め込みとセット損失に基づいてマッチングさせる。さらに、再帰的精緻化戦略（recurrent refinement strategy）を用いて、検出とセグメンテーションを同時に実行する。このアプローチは、従来のトップダウン型およびボトムアップ型のフレームワークとは異なる、新たなインスタンスセグメンテーションの実現方法を提供する。提案するエンド・ツー・エンド機構の利点により、ISTRは近似に基づく非最適な埋め込みを用いても、最先端の性能を達成している。具体的には、MS COCOデータセットにおいて、ResNet50-FPNを用いた場合にボックスAP/マスクAPが46.8/38.6、ResNet101-FPNを用いた場合には48.1/39.9を達成した。定量的および定性的な評価結果から、ISTRがインスタンスレベル認識のための堅牢なベースラインとしての有望な潜在能力を有していることが示された。実装コードは以下のURLで公開されている：https://github.com/hujiecpp/ISTR。