Command Palette

Search for a command to run...

4ヶ月前

マルチスケールマルチモーダルトランスフォーマーによるマルチモーダル行動認識

{Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu}

マルチスケールマルチモーダルトランスフォーマーによるマルチモーダル行動認識

要約

アクション認識は数年にわたり活発な研究分野であるが、既存の多数のアプローチは人間が視覚と聴覚の情報を同時に効率的に処理するのとは異なり、単に動画モダリティのみを活用している。このため、近年のモデルの適用範囲は視覚的に明確に定義されたアクションに限られてしまう。一方で、音声と動画は階層的な構造で捉えられることが知られており、たとえば音声信号はサンプリング時間点ごとの信号から音声活動、さらには音声分類における全体のカテゴリへと段階的に抽象化される。本研究では、階層的表現学習を採用するマルチスケールマルチモーダルTransformer(MMT)を提案する。特に、MMTは新規のマルチスケール音声Transformer(MAT)とマルチスケール動画Transformerから構成される。さらに、二つのモダリティを強固なマルチモーダル表現統合に適応させるために、音声-音声対比損失(AVC)および内モダリティ対比損失(IMC)を含む一連のマルチモーダル教師付き対比学習目標を提案する。外部データを用いない条件下で、Kinetics-Sounds、Epic-Kitchens-100、VGGSoundの各データセットにおいて、MMTは従来の最先端手法よりトップ-1精度でそれぞれ7.3%、1.6%、2.1%優れている。また、MATは3つの公開ベンチマークデータセットにおいてAST(Audio Spectrogram Transformer)を22.2%、4.4%、4.7%上回り、FLOPs(浮動小数点演算回数)の観点から3倍の効率性を示している。広範なアブレーション研究および可視化を通じて、提案するMMTが動画と音声信号の組み合わせから意味的により分離性の高い特徴表現を効果的に捉えることができることを実証した。

ベンチマーク

ベンチマーク方法論指標
action-recognition-on-epic-kitchens-100MMT
Action@1: 47.8
Noun@1: 61.0
Verb@1: 70.1
audio-classification-on-vggsoundMMT (Audio-Visual)
Top 1 Accuracy: 66.2
Top 5 Accuracy: 85.7
audio-classification-on-vggsoundMMT (Video)
Top 1 Accuracy: 56.1
Top 5 Accuracy: 77.9
multi-modal-classification-on-vgg-soundMMT
Top-1 Accuracy: 66.2
Top-5 Accuracy: 85.7

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マルチスケールマルチモーダルトランスフォーマーによるマルチモーダル行動認識 | 論文 | HyperAI超神経