17日前

BoxVIS:ボックスアノテーションを用いた動画インスタンスセグメンテーション

Minghan Li, Lei Zhang
BoxVIS:ボックスアノテーションを用いた動画インスタンスセグメンテーション
要約

動画におけるピクセル単位のオブジェクトマスクをラベル付けることは、費用が高く、人的労力も多大である。その結果、既存の動画インスタンスセグメンテーション(VIS)データセットにおけるピクセル単位のアノテーション量は限定的であり、訓練されたVISモデルの汎化能力を制限している。代替的な手法として、動画内のインスタンスをバウンディングボックスでラベル付ける方法が挙げられるが、これははるかにコストが低い。近年のボックス監督型画像インスタンスセグメンテーションの成功に触発され、最先端のピクセル監督型VISモデルをボックス監督型VIS(BoxVIS)のベースラインに適応したところ、わずかな性能低下が観察された。そこで、BoxVISの性能向上を二つの側面から検討した。第一に、空間的および時間的整合性を高めるために、ボックス中心をガイドとする空間時間的ペアワイズ類似度(STPA)損失を提案する。第二に、現在のVISベンチマークから動画を統合し、COCOデータセットの画像を短時間の疑似動画クリップに変換することで、より大規模なボックスアノテーション付きVISデータセット(BVISD)を構築した。提案するBVISDとSTPA損失を用いて訓練したBoxVISモデルは、YouTube-VIS 2021およびOVISの検証セットにおいて、それぞれ43.2%および29.0%のマスクAPを達成した。このモデルは、元のピクセル監督型VISモデルに比べてアノテーション時間とコストをわずか16%に抑えるだけで、同等のインスタンスマスク予測性能とより優れた汎化能力を示した。コードとデータは、\url{https://github.com/MinghanLi/BoxVIS} にて公開されている。