マルチモーダルTransformerを用いたエンドツーエンド型参照動画オブジェクトセグメンテーション

参照動画オブジェクトセグメンテーション(RVOS)タスクとは、与えられた動画のフレーム内でテキストによって参照されたオブジェクトインスタンスをセグメンテーションする課題である。このマルチモーダルなタスクは、テキスト推論、動画理解、インスタンスセグメンテーション、トラッキングを統合しており、その複雑さから従来のアプローチは高度なパイプラインを用いて対処してきた。本論文では、RVOSに対するシンプルなTransformerベースのアプローチを提案する。我々のフレームワークである「マルチモーダルトラッキングTransformer(MTTR)」は、RVOSタスクをシーケンス予測問題として定式化する。近年のコンピュータビジョンおよび自然言語処理の進展に基づき、MTTRは、単一のマルチモーダルTransformerモデルによって動画とテキストを効果的かつ洗練された形で統合処理できるという認識に立脚している。MTTRはエンド・ツー・エンドで学習可能であり、テキスト関連のインダクティブバイアスを含まず、追加のマスク精緻化処理ステップも不要である。これにより、従来の手法と比較してRVOSパイプラインを大幅に簡素化している。標準ベンチマークでの評価において、MTTRは複数の指標で従来の最先端手法を顕著に上回ることが確認された。特に、A2D-SentencesおよびJHMDB-Sentencesデータセットでは、それぞれ+5.7および+5.0のmAP向上を達成し、1秒間に76フレームの処理速度を実現している。さらに、研究者の注目がまだ十分に集まっていないより困難なRVOSデータセットであるRefer-YouTube-VOSの公開検証セットにおいても、強力な性能を報告している。本研究の実験再現用コードは、https://github.com/mttr2021/MTTR にて公開されている。