17日前

オンラインモデルによる動画インスタンスセグメンテーションの擁護

Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai
オンラインモデルによる動画インスタンスセグメンテーションの擁護
要約

近年、動画インスタンスセグメンテーション(VIS)はオフラインモデルによって大きく進展を遂げてきたが、性能の劣るためオンラインモデルは徐々に注目を浴びにくくなっていた。しかし、オンライン手法は計算リソースの制約によりオフラインモデルが限界を迎える長時間動画や継続的な動画処理において、固有の利点を有している。したがって、オンラインモデルがオフラインモデルと同等、あるいはそれ以上の性能を達成できれば、極めて望ましいと言える。現在のオンラインモデルとオフラインモデルを詳細に分析した結果、性能差の主な原因は、特徴空間上での異なるインスタンス間の外見の類似性に起因するフレーム間の誤った関連付けにあることが明らかになった。この洞察に基づき、本研究では対比学習(contrastive learning)を活用したオンラインフレームワークを提案する。このフレームワークは、関連付けに向けたより判別力の高いインスタンス埋め込みを学習し、履歴情報を十分に活用することで、安定性を高めることを可能にする。シンプルでありながら、本手法は3つのベンチマークにおいて、すべてのオンラインおよびオフライン手法を上回る性能を達成した。特に、YouTube-VIS 2019では49.5 APを達成し、従来のオンラインおよびオフライン最先端手法に対してそれぞれ13.2 APおよび2.1 APの顕著な向上を実現した。さらに、混雑や遮蔽が著しいというより困難なデータセットOVI Sでは30.2 APを達成し、従来の最先端手法を14.8 AP上回った。本手法は、CVPR2022で開催された第4回大規模動画オブジェクトセグメンテーションチャレンジ(Large-scale Video Object Segmentation Challenge)の動画インスタンスセグメンテーション部門で1位を獲得した。本研究の手法のシンプルさと効果性、および現在の手法に対する洞察が、VISモデルのさらなる探求に貢献することを期待する。