11日前
マルチモーダルトークン統合によるビジョン変換器
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang

要約
トランスフォーマーのさまざまな変種が、単一モダリティの視覚タスクに対応するために登場している。これらのアプローチでは、自己注意(self-attention)モジュールを積み重ねて、画像などの入力源を処理している。直感的には、視覚トランスフォーマーに複数のモダリティのデータを入力することで性能の向上が期待できるが、その一方でモダリティ内での注目重み(attentive weights)が希薄化する可能性があり、結果として最終的な性能が低下するリスクも存在する。本論文では、トランスフォーマーに基づく視覚タスクに特化したマルチモーダルトークン融合手法(TokenFusion)を提案する。効果的なマルチモーダル融合を実現するため、TokenFusionは情報量の少ないトークンを動的に検出し、それらを投影・集約されたモダリティ間特徴で置き換える。さらに、融合後のモダリティ間アライメントを明示的に活用できるように、残差位置アライメント(residual positional alignment)を導入している。TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関関係を学習可能となる一方で、単一モダリティのトランスフォーマー構造は基本的に維持される。本手法は、同質的および非同質的な複数のモダリティに対して広範な実験を実施し、マルチモーダル画像間変換、RGB-深度セマンティックセグメンテーション、点群と画像を用いた3Dオブジェクト検出という3つの代表的な視覚タスクにおいて、最先端手法を上回る性能を達成した。本研究のコードは、https://github.com/yikaiw/TokenFusion にて公開されている。