11日前
OmniVec2 - 大規模なマルチモーダルおよびマルチタスク学習のための新規Transformerベースのネットワーク
{Gaurav Sharma, Siddharth Srivastava}

要約
本稿では、新規のマルチモーダル・マルチタスクネットワークおよび関連する学習アルゴリズムを提案する。本手法は、画像、動画、音声、テキスト、深度情報、点群データ、時系列データ、表形式データ、グラフ、X線画像、赤外線画像、IMU(慣性計測装置)、ハイパースペクトル画像の約12種類の異なるモダリティからのデータを処理可能な能力を有している。提案手法は、モダリティごとに特化したトークナイザー、共有されたTransformerアーキテクチャ、およびクロスアテンション機構を用いて、異なるモダリティからのデータを統一された埋め込み空間にマッピングする。マルチモーダルかつマルチタスクのシナリオに対応するため、各モダリティごとに固有のタスクヘッドを導入し、それぞれのタスクに適した処理を実現している。さらに、ネットワークの初期化を目的としたイテレーティブなモダリティスイッチングを用いた新規な事前学習戦略と、すべてのモダリティを同時に統合して学習する方式と、ペアごとのモダリティを順次学習する方式の間でトレードオフを実現する学習アルゴリズムを提案している。12種類のモダリティからなる25のデータセットにおいて包括的な評価を実施し、提案アーキテクチャ、事前学習戦略、および適応型マルチタスク学習の有効性を示す、最先端の性能を達成した。