
要約
統合型のパノプティックセグメンテーション手法は、いくつかのデータセットにおいて最先端の性能を達成しつつある。高解像度のデータセットでこれらの成果を実現するため、これらの手法はクロップベースの学習を採用している。本研究では、クロップベースの学習が一般的に有益である一方で、悪影響を及ぼす副作用も存在することを発見した。具体的には、統合型ネットワークが大規模なオブジェクトインスタンスを識別する能力を制限し、複数のインスタンス間で予測が混同される現象を引き起こすことが明らかになった。この問題を解決するため、本研究ではバッチ内の複数の画像を用いて追加の教師信号を導入する「イントラバッチ監視(Intra-Batch Supervision: IBS)」を提案する。我々は、IBSを導入することで、インスタンス間の識別能力が向上し、混同問題を効果的に解消できることを示した。また、高解像度のCityscapesおよびMapillary Vistasデータセットにおいて、インスタンスクラスにおけるパノプティック品質(Panoptic Quality)で最大+2.5の向上を達成した。さらに、混同問題をより適切に捉える指標として認識されるピクセル精度(pixel accuracy)およびピクセル精度(pixel precision)において、最大+5.8という顕著な改善を達成した。