
要約
クラスに依存しないインスタンスセグメンテーションを目的とした、適応型インスタンス選択(Adaptive Instance Selection: AdaptIS)ネットワークアーキテクチャを提案する。入力画像と点 $(x, y)$ を受け取り、その点に位置するオブジェクトのマスクを生成する。本ネットワークはAdaIN層を用いて入力点に応じて適応するため、同一画像内の異なるオブジェクトに対して異なるマスクを生成可能である。AdaptISはピクセル単位の精度を持つオブジェクトマスクを生成するため、複雑な形状や重度のオクルージョンにさらされたオブジェクトの正確なセグメンテーションが可能となる。また、標準的なセマンティックセグメンテーションパイプラインと容易に統合できるため、パンプティックセグメンテーションの実現が可能である。本手法の有効性を示すために、困難なオクルージョンを伴う挑戦的な玩具問題(toy problem)を用いた実験を実施した。さらに、パンプティックセグメンテーションのベンチマークにおいて広範な評価を行った結果、COCOでの事前学習を行わずにCityscapesおよびMapillaryで最先端の性能を達成し、難易度の高いCOCOデータセットにおいても競争力のある結果を示した。本手法のソースコードおよび学習済みモデルは、https://github.com/saic-vul/adaptis にて公開されている。