2ヶ月前

グラミアン多モーダル表現学習とアライメント

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello
グラミアン多モーダル表現学習とアライメント
要約

人間の知覚は視覚、聴覚、言語などの複数のモダリティを統合し、周囲の現実に対する一貫した理解を形成します。最近の多モダルモデルは、コントラスティブ学習を用いてモダリティ対をアラインメントすることで著しい進歩を遂げていますが、これらのソリューションは複数のモダリティに拡大する際には適していない場合があります。これらのモデルは通常、各モダリティを指定されたアンカーにアラインメントしますが、すべてのモダリティが互いにアラインメントしていることを保証せず、そのため複数のモダリティを統合的に理解するタスクにおいて性能が低下することがあります。本論文では、従来のペアワイズな多モダル学習手法を見直し、新たなグラミアン表現アラインメント測度(GRAM: Gramian Representation Alignment Measure)を提案します。GRAMは、$n$個のモダリティが存在する高次元空間で直接学習し、それらをアラインメントします。具体的には、モダリティベクトルによって張られる$k$次元平行六面体のグラミアン体積を最小化することにより、すべてのモダリティが同時に幾何学的にアラインメントされるようにします。GRAMは任意の下流方法におけるコサイン類似度の代わりに使用でき、2から$n$までの任意の数のモダリティに対してより意味のあるアラインメントを提供します。新しいGRAMベースのコントラスティブ損失関数は、高次元埋め込み空間での多モダルモデルのアラインメントを強化し、ビデオ-音声-テキスト検索や音声-ビデオ分類などの下流タスクにおいて新たな最先端性能を達成しています。プロジェクトページ、コードおよび事前学習済みモデルは https://ispamm.github.io/GRAM/ で利用可能です。