マルチスケールマルチモーダルトランスフォーマーによるマルチモーダル行動認識

アクション認識は数年にわたり活発な研究分野であるが、既存の多数のアプローチは人間が視覚と聴覚の情報を同時に効率的に処理するのとは異なり、単に動画モダリティのみを活用している。このため、近年のモデルの適用範囲は視覚的に明確に定義されたアクションに限られてしまう。一方で、音声と動画は階層的な構造で捉えられることが知られており、たとえば音声信号はサンプリング時間点ごとの信号から音声活動、さらには音声分類における全体のカテゴリへと段階的に抽象化される。本研究では、階層的表現学習を採用するマルチスケールマルチモーダルTransformer(MMT)を提案する。特に、MMTは新規のマルチスケール音声Transformer(MAT)とマルチスケール動画Transformerから構成される。さらに、二つのモダリティを強固なマルチモーダル表現統合に適応させるために、音声-音声対比損失(AVC)および内モダリティ対比損失(IMC)を含む一連のマルチモーダル教師付き対比学習目標を提案する。外部データを用いない条件下で、Kinetics-Sounds、Epic-Kitchens-100、VGGSoundの各データセットにおいて、MMTは従来の最先端手法よりトップ-1精度でそれぞれ7.3%、1.6%、2.1%優れている。また、MATは3つの公開ベンチマークデータセットにおいてAST(Audio Spectrogram Transformer)を22.2%、4.4%、4.7%上回り、FLOPs(浮動小数点演算回数)の観点から3倍の効率性を示している。広範なアブレーション研究および可視化を通じて、提案するMMTが動画と音声信号の組み合わせから意味的により分離性の高い特徴表現を効果的に捉えることができることを実証した。