11日前

参照セグメンテーションのためのクロスモーダルプログレッシブ理解

Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li
参照セグメンテーションのためのクロスモーダルプログレッシブ理解
要約

自然言語表現と画像/動画を入力として、参照セグメンテーションの目的は、表現の主語によって記述される対象のピクセルレベルのマスクを生成することである。従来のアプローチは、視覚的および言語的モダリティ間の特徴を一段階で暗黙的に相互作用させ、統合することでこの問題に取り組んできた。しかし、人間は表現に含まれる情報量の多い語を基に、段階的に参照問題を解決する傾向がある。すなわち、まず候補となる対象を大まかに特定し、その後、その中からターゲットとなる対象を明確に区別する。本論文では、このような人間の認知プロセスを効果的に模倣するため、クロスモダル・プログレッシブコンプリヘンション(Cross-Modal Progressive Comprehension, CMPC)スキームを提案する。このCMPCを、画像用のCMPC-Iモジュールおよび動画用のCMPC-Vモジュールとして実装することで、参照画像および参照動画セグメンテーションモデルの性能を向上させた。画像データに対しては、CMPC-Iモジュールはまず、エンティティ語および属性語を用いて表現に関連するすべての候補エンティティを認識する。その後、関係語を活用して空間グラフ推論によりターゲットエンティティを強調し、他の無関係なエンティティを抑制する。動画データに対しては、CMPC-VモジュールはCMPC-Iの枠組みに基づき、行動語をさらに活用して時間的グラフ推論により、行動の手がかりと一致する正しいエンティティを強調する。さらに、CMPCに加えて、テキスト情報のガイドのもとで、視覚バックボーンにおける異なるレベルに対応する推論済みのマルチモーダル特徴を統合するため、シンプルでありながら効果的なText-Guided Feature Exchange(TGFE)モジュールを導入した。これにより、多段階の特徴がテキストコンテキストに基づいて相互にコミュニケーションをとり、互いに精緻化される。CMPC-IまたはCMPC-VとTGFEを組み合わせることで、それぞれ画像および動画用の参照セグメンテーションフレームワークを構築でき、4つの参照画像セグメンテーションベンチマークおよび3つの参照動画セグメンテーションベンチマークにおいて、それぞれ新たなSOTA(State-of-the-Art)性能を達成した。

参照セグメンテーションのためのクロスモーダルプログレッシブ理解 | 最新論文 | HyperAI超神経