
要約
意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションは、それらの背後にある類似性にもかかわらず、それぞれ異なる専門的なフレームワークによって扱われてきた。本論文では、これらの本質的に類似したタスクを統一的かつシンプルかつ効果的に処理できるフレームワークを提案する。このフレームワークは「K-Net」と名付けられ、学習可能なカーネル群によってインスタンスと意味的カテゴリの両方を一貫してセグメンテーションする。各カーネルは、潜在的なインスタンスまたは「stuff」クラス(物質的クラス)のマスクを生成する役割を担う。異なるインスタンスを区別する困難を克服するため、入力画像内の意味のあるグループに応じて各カーネルを動的に更新する戦略を提案する。K-Netは二部マッチングを用いてエンド・ツー・エンドで学習可能であり、学習および推論プロセスが自然にNMS(非最大抑制)不要かつボックス不要となる。装飾的な技術を一切用いずに、K-NetはMS COCO test-devスプリットにおけるパノプティックセグメンテーションで55.2%のPQ、ADE20K valスプリットにおける意味的セグメンテーションで54.3%のmIoUという、これまでに発表された単一モデルの最良成績を上回っている。また、インスタンスセグメンテーション性能においても、Cascade Mask R-CNNと同等の水準を達成しつつ、推論速度は50~90%高速化している。コードおよびモデルは、https://github.com/ZwwWayne/K-Net/ にて公開される予定である。