2ヶ月前
ViNet: 視覚モダリティの限界を押し広げる音声視覚サリエンシー予測
Samyak Jain; Pradeep Yarlagadda; Shreyank Jyoti; Shyamgopal Karthik; Ramanathan Subramanian; Vineet Gandhi

要約
音響視覚注目度予測のためのViNetアーキテクチャを提案します。ViNetは完全畳み込み型エンコーダー-デコーダー構造であり、アクション認識のために訓練されたネットワークから視覚特徴を抽出するエンコーダーと、多次元階層からの特徴を組み合わせて三線形補間と3D畳み込みによって注目度マップを推論するデコーダーで構成されています。ViNetの全体的なアーキテクチャは概念的に単純で、因果性を持ち、リアルタイム(60 fps)で動作します。ViNetは音響情報を入力として使用せず、それでも9つの異なるデータセット(視覚のみの3つのデータセットと音響視覚の6つのデータセット)において現行の最先端の音響視覚注目度予測モデルを上回ります。また、AVEデータセットにおけるCC, SIM, AUC指標において人間の性能を超えており、当該研究ではこれが初めてであると認識しています。さらに、デコーダーに音響特徴を追加したViNetアーキテクチャの変種も検討しました。驚くことに、十分な学習が行われるとネットワークは入力音響に対して無関心となり、入力に関わらず同じ出力を提供します。興味深いことに、以前の最先端モデル \cite{tsiami2020stavis} でも同様の挙動が観察されました。これらの結果は、深層学習に基づく音響視覚注目度予測に関する以前の研究とは対照的であり、音響情報をより効果的に取り入れるための明確な未来的研究方向性を示唆しています。本研究で使用したコードおよび事前学習済みモデルはhttps://github.com/samyak0210/ViNet から入手可能です。