18日前

リスン・トゥ・ルック:オーディオ事前視聴によるアクション認識

Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani
リスン・トゥ・ルック:オーディオ事前視聴によるアクション認識
要約

ビデオデータの爆発的増加に直面する中、現在の高コストなクリップ単位分類器はますます実用性を失いつつある。本研究では、未加工動画における効率的な動作認識を実現するフレームワークを提案する。このフレームワークは、音声をプレビュー機構として用いることで、短期的および長期的な視覚的冗長性を同時に低減する。まず、より軽量なモダリティ(単一フレームとその付随音声)から特徴を蒸留(distill)することで、クリップ単位の特徴を生成する「ImgAud2Vid」フレームワークを設計した。これにより、効率的なクリップ単位認識のための短期的時間的冗長性を低減する。次に、ImgAud2Vidを基盤として、注目メカニズム(attention-based)を備えた長短期記憶ネットワーク「ImgAud-Skimming」を提案する。この手法は、未加工動画内の有用な瞬間を反復的に選択することで、効率的な動画単位認識に向けた長期的時間的冗長性を削減する。4つの動作認識データセットを用いた広範な実験により、本手法が認識精度と処理速度の両面で最先端の性能を達成することが実証された。

リスン・トゥ・ルック:オーディオ事前視聴によるアクション認識 | 最新論文 | HyperAI超神経