15日前

AVT:マルチモーダル行動認識のためのオーディオ・ビデオ変換器

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Kevin Hsu, Jingru Yi, Wentao Zhu}
AVT:マルチモーダル行動認識のためのオーディオ・ビデオ変換器
要約

行動認識は動画理解において重要な分野である。異種のデータソースから効果的に学習するため、本研究では新たなマルチモーダル行動認識手法として「Audio-Video Transformer(AVT)」を提案する。AVTは、動画と音声信号の組み合わせを用いて行動認識の精度を向上させ、動画用Transformerが持つ効果的な空間時間表現を活用する。マルチモーダル融合において、クロスモーダルTransformer内でマルチモーダルトークンを単純に連結する手法は、大きな計算資源およびメモリ消費を要するが、本手法では音声-動画ボトルネックTransformerを導入することで、クロスモーダルの複雑さを低減する。マルチモーダルTransformerの学習効率を向上させるために、音声-動画対比学習、音声-動画マッチング、およびマスク付き音声・動画学習といった自己教師付き目的関数をAVTの学習に統合し、多様な音声・動画表現を共通のマルチモーダル表現空間にマッピングする。さらに、AVTにおける意味的な音声活動の学習を目的として、マスク音声セグメント損失を提案する。公開データセット3種および社内データセット2種における広範な実験およびアブレーション研究により、提案手法AVTの有効性が一貫して確認された。具体的には、外部学習データを用いずにKinetics-SoundsおよびEpic-Kitchens-100データセットにおいて、それぞれ前例の最先端手法を8%および1%上回った。また、VGGSoundデータセットでは、音声信号を活用することで、従来の最先端動画Transformerを10%上回った。さらに、従来の最先端マルチモーダルTransformerと比較して、AVTはFLOPs(浮動小数点演算回数)で1.3倍の効率性を達成しつつ、Epic-Kitchens-100では精度を4.2%向上させた。可視化結果から、音声が補完的かつ判別力のある特徴を提供していることが明らかとなり、AVTが音声と動画の統合情報から行動を効果的に理解できることを裏付けた。

AVT:マルチモーダル行動認識のためのオーディオ・ビデオ変換器 | 最新論文 | HyperAI超神経