
人間は、物体の一部が隠れていても全体として認識する驚異的な能力を持っています。この非模態知覚(amodal perception)の能力は、私たちが世界を感覚的にそして認知的に理解する基盤となっています。ロボットにこの能力を活用させるために、私たちは新たな課題を定式化し、提案します。この課題を「非模態パノプティックセグメンテーション」と名付けました。この課題の目的は、物質クラスの可視領域のピクセル単位での意味セグメンテーションラベルと、物体クラスの可視および隠蔽領域のインスタンスセグメンテーションラベルを同時に予測することです。この新しい課題に関する研究を促進するために、私たちは既存の2つのベンチマークデータセットにピクセルレベルの非模態パノプティックセグメンテーションラベルを追加し、公開しました。これらは KITTI-360-APS および BDD100K-APS として利用可能です。また、解釈可能な形で性能を評価するための非模態パノプティック品質(Amodal Panoptic Quality: APQ)と非模態解析カバレッジ(Amodal Parsing Coverage: APC)という指標を提示しています。さらに、隠蔽物と被隠蔽物との間の複雑な関係を明示的にモデル化することで、この課題への取り組みの一歩目となる新たなネットワークである「非模態パノプティックセグメンテーションネットワーク(Amodal Panoptic Segmentation Network: APSNet)」を提案します。広範な実験評価により、APSNet が両方のベンチマークで最先端の性能を達成しているだけでなく、非模態認識の有用性も示されています。これらのベンチマークは http://amodal-panoptic.cs.uni-freiburg.de から入手できます。