11日前

自然言語クエリからのアーティストおよびアクション動画セグメンテーションのための非対称クロスガイド付きアテンションネットワーク

{ Dacheng Tao, Junchi Yan, Cheng Deng, Hao Wang}
自然言語クエリからのアーティストおよびアクション動画セグメンテーションのための非対称クロスガイド付きアテンションネットワーク
要約

自然言語クエリからのアクターおよびアクション動画セグメンテーションは、入力されたテキスト記述に基づいて動画内のアクターおよびその行動を選択的にセグメントすることを目的としている。従来の手法は、動的畳み込みや完全畳み込み分類を用いて視覚と言語の異種特徴間の単純な相関関係を学習する傾向にあった。しかし、これらの手法は自然言語クエリの言語的多様性を無視しており、グローバルな視覚的文脈を適切にモデル化できないため、満足のいくセグメンテーション性能を達成できていない。このような課題に対処するため、本研究では自然言語クエリからのアクターおよびアクション動画セグメンテーションを目的とした非対称クロスガイド付きアテンションネットワークを提案する。具体的には、入力クエリの言語的多様性を低減するための視覚ガイド付き言語アテンションと、クエリに焦点を当てたグローバルな視覚的文脈を組み込むための言語ガイド付き視覚アテンションを併用する非対称クロスガイド付きアテンションネットワークを構築した。さらに、マルチリゾリューション融合スキームおよび前景・背景ピクセルに対する重み付き損失関数を導入することで、性能のさらなる向上を実現した。Actor-Action Dataset SentencesおよびJ-HMDB Sentencesにおける広範な実験結果から、本手法が最先端の手法を顕著に上回ることを示した。

自然言語クエリからのアーティストおよびアクション動画セグメンテーションのための非対称クロスガイド付きアテンションネットワーク | 最新論文 | HyperAI超神経