2ヶ月前

クロスモダリティ注意を用いたツーストリーム動画分類

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian
クロスモダリティ注意を用いたツーストリーム動画分類
要約

多モーダル情報の融合は、ビデオ分類において効果的に大幅な性能向上をもたらすことが知られています。しかし、現在最も一般的な方法は依然として各ストリームの予測スコアを最終段階で単純に融合することです。有効な問いは、モーダル間での情報融合により効果的な方法が存在するかどうかです。自然言語処理における注意機構の発展に伴い、コンピュータビジョン分野でも多くの成功例が見られます。本論文では、二つのストリームよりも効果的に他のモーダルから情報を取得できるクロスモーダル注意操作を提案します。これに対応して、提案した注意操作をラッパーとした互換性のあるブロックであるCMAブロックを実装しました。CMAブロックは多くの既存のアーキテクチャに組み込むことができます。実験では、ビデオ分類で広く使用されている二つのストリームとノンローカルモデルとの比較を行いました。すべての実験結果は、提案手法の優れた性能を明確に示しています。また、注意マップの可視化を通じてCMAブロックの利点を分析し、このブロックが最終予測にどのように貢献するかを直感的に示しています。注:「non-local models」(ノンローカルモデル)という用語は比較的新しく、一般的な日本語訳がないため、「ノンローカルモデル」と訳しました。「attention map」(注意マップ)も同様に「注意マップ」と訳しました。これらの用語については専門的な文献や資料を参照することをお勧めします。

クロスモダリティ注意を用いたツーストリーム動画分類 | 最新論文 | HyperAI超神経