CTVIS:オンライン動画インスタンスセグメンテーションのための一貫した訓練

インスタンス埋め込みの識別は、オンライン動画インスタンスセグメンテーション(VIS)において、時間にわたるインスタンスの関連付けに不可欠な役割を果たす。インスタンス埋め込み学習は、アーカイブ/ポジティブ/ネガティブ埋め込みから構成される対比アイテム(CIs)に基づいて計算される対比損失によって直接教師付き学習が行われる。近年のオンラインVIS手法では、CIsの生成に1つの参照フレームからの情報のみを利用しているが、本研究では、これだけでは高度に識別性の高い埋め込みを学習するには不十分であると主張する。直感的には、CIsの質を向上させるための戦略として、学習中に推論フェーズを再現する方法が考えられる。そこで、本研究では、CIsの構築プロセスにおいて学習と推論のパイプラインを一貫性を持たせるというシンプルながら効果的な学習戦略、すなわち「オンラインVISのための一貫性学習(CTVIS)」を提案する。具体的には、CTVISは、モーメンタム平均埋め込みとメモリバンクのストレージ機構を参照してCIsを構築し、関連する埋め込みにノイズを加えることで、現在のインスタンスの埋め込みと過去のインスタンスの安定した表現との信頼性の高い比較を可能にする。このアプローチにより、遮蔽、再識別、変形といったVISの主要な課題をより効果的にモデル化できる利点が得られる。実証実験の結果、CTVISはYTVIS19(55.1% AP)、YTVIS21(50.1% AP)、OVIS(35.5% AP)の3つのVISベンチマークにおいて、従来の最先端モデルを最大+5.0ポイント上回る性能を達成した。さらに、画像から変換された擬似動画を用いた学習により、完全教師あり学習を上回る堅牢なモデルの構築が可能であることも明らかになった。