マルチモダリティによる参照:動画オブジェクトセグメンテーションのための統一的時系列Transformer

近年、テキストや音声などのマルチモーダル信号を用いた参照動画オブジェクトセグメンテーション(Referring Video Object Segmentation: Ref-VOS)は、産業界および学術界においてますます注目を集めている。このタスクの課題は、モダリティ内での意味的整合性の探索およびフレーム間の視覚的対応関係の把握にある。しかし、従来の手法は異なるモダリティに対して別々のネットワークアーキテクチャを採用しており、参照フレームとの間でのフレーム間時系列的相互作用を軽視している。本論文では、参照動画オブジェクトセグメンテーションを対象に、マルチモーダル統合時系列変換器(Multi-modal Unified Temporal Transformer: MUTR)を提案する。本研究では、初めて統一的なフレームワークを採用し、DETRスタイルの変換器を用いることで、テキストまたは音声の参照に基づく動画オブジェクトのセグメンテーションを実現する。具体的には、動画とマルチモーダル信号間の時系列関係を十分に活用するための2つの戦略を導入する。第一に、変換器の前段における低レベルの時系列集約処理において、マルチモーダル参照が連続する動画フレームからマルチスケールの視覚的特徴を捉えるように設計した。これにより、テキストや音声信号に時系列的な知識を付与し、モダリティ間の意味的整合性を強化する。第二に、変換器の後段における高レベルの時系列相互作用において、異なるオブジェクト埋め込み間のフレーム間特徴通信を実施することで、動画全体にわたるオブジェクトごとの対応関係をより良好に維持する。テキスト参照を用いたRef-YouTube-VOSおよび音声参照を用いたAVSBenchデータセットにおいて、最先端手法に対してそれぞれ+4.2%および+8.7%のJ&F(平均交差率とFスコア)向上を達成し、統一的マルチモーダルVOSの有効性を実証した。コードは https://github.com/OpenGVLab/MUTR にて公開されている。