11日前

参照表現からの動画オブジェクトセグメンテーションを 위한階層的相互作用ネットワーク

{Philip Torr, Hengshuang Zhao, Luca Bertinetto, Yansong Tang, Zhao Yang}
参照表現からの動画オブジェクトセグメンテーションを 위한階層的相互作用ネットワーク
要約

本稿では、参照表現による動画オブジェクトセグメンテーション(VOSRE)の問題に取り組む。従来の手法は、通常、言語的特徴と視覚エンコーダの上位層から抽出された視覚特徴に基づいて多モーダル融合を行うが、これによりモデルは異なる意味的・空間的粒度レベルにおける多モーダル入力の表現能力が制限される。この問題を解決するため、本研究ではVOSRE問題に対応するエンドツーエンドの階層的相互作用ネットワーク(HINet)を提案する。本モデルは、視覚エンコーダが生成する特徴ピラミッドを活用し、複数のレベルの多モーダル特徴を生成する。これにより、多モーダル特徴の異なるレベルにおいて、オブジェクトの属性やカテゴリといったさまざまな言語的概念をより柔軟に表現可能となる。さらに、光流(optical flow)入力から動きを持つオブジェクトの信号を抽出し、動きゲーティング機構を用いて、参照対象の強調と背景の抑制という補完的ヒントとして活用する。従来の手法とは異なり、本戦略により、モデルは全動画を入力として必要とせずにオンライン予測を実現できる。シンプルな構成でありながら、DAVIS-16、DAVIS-17、J-HMDBの各データセットにおいて、VOSREタスクで既存の最先端手法を上回る性能を達成し、本手法の有効性と汎用性を示している。

参照表現からの動画オブジェクトセグメンテーションを 위한階層的相互作用ネットワーク | 最新論文 | HyperAI超神経