11日前

クロスモーダルプログレッシブコンプリヘンションを用いた参照画像セグメンテーション

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li
クロスモーダルプログレッシブコンプリヘンションを用いた参照画像セグメンテーション
要約

参照画像セグメンテーションは、自然言語表現に記述された内容とよく一致する対象の前景マスクを抽出することを目的とする。従来のアプローチは視覚的および言語的モダリティ間の非明示的な特徴相互作用と統合を用いてこの問題に取り組んできたが、通常、表現内の情報量の多い語(キーワード)を十分に活用できず、二つのモダリティからの特徴を正確に一致させることが困難である。本論文では、この困難なタスクを効果的に解決するため、クロスモダルプログレッシブコンプレヘンション(CMPC)モジュールとテキストガイダンス特徴交換(TGFE)モジュールを提案する。具体的には、CMPCモジュールはまず、エンティティ語および属性語を用いて、表現が考慮しうるすべての関連エンティティを認識する。その後、関係語を活用して、マルチモーダルグラフ推論により正しいエンティティを強調し、他の無関係なエンティティを抑制する。さらに、CMPCモジュールに加えて、テキスト情報のガイドのもとで、異なるレベルから得られた推論されたマルチモーダル特徴を統合するシンプルながら効果的なTGFEモジュールを導入する。これにより、多段階の特徴が相互に通信し、テキストコンテキストに基づいて精緻化される。本研究では、4つの代表的な参照セグメンテーションベンチマークにおいて広範な実験を行い、新たな最先端(SOTA)性能を達成した。

クロスモーダルプログレッシブコンプリヘンションを用いた参照画像セグメンテーション | 最新論文 | HyperAI超神経