HyperAIHyperAI

Command Palette

Search for a command to run...

リスン・トゥ・ルック:オーディオ事前視聴によるアクション認識

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

概要

ビデオデータの爆発的増加に直面する中、現在の高コストなクリップ単位分類器はますます実用性を失いつつある。本研究では、未加工動画における効率的な動作認識を実現するフレームワークを提案する。このフレームワークは、音声をプレビュー機構として用いることで、短期的および長期的な視覚的冗長性を同時に低減する。まず、より軽量なモダリティ(単一フレームとその付随音声)から特徴を蒸留(distill)することで、クリップ単位の特徴を生成する「ImgAud2Vid」フレームワークを設計した。これにより、効率的なクリップ単位認識のための短期的時間的冗長性を低減する。次に、ImgAud2Vidを基盤として、注目メカニズム(attention-based)を備えた長短期記憶ネットワーク「ImgAud-Skimming」を提案する。この手法は、未加工動画内の有用な瞬間を反復的に選択することで、効率的な動画単位認識に向けた長期的時間的冗長性を削減する。4つの動作認識データセットを用いた広範な実験により、本手法が認識精度と処理速度の両面で最先端の性能を達成することが実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています