6ヶ月前

概要

本稿では、新たなマルチモーダル・マルチタスクネットワークおよび関連する学習アルゴリズムを提案する。本手法は、画像、動画、音声、テキスト、深度情報、ポイントクラウド、時系列データ、表形式データ、グラフ、X線、赤外線、IMU（慣性計測装置）、ハイパースペクトルの約12種類の異なるモダリティからのデータを処理可能な点が特徴である。提案手法は、モダリティごとに特化したトークナイザーと共有型のTransformerアーキテクチャ、およびクロスアテンション機構を用いて、異なるモダリティからのデータを統一された埋め込み空間にマッピングする。マルチモーダルかつマルチタスクの設定に対応するため、各モダリティに応じたタスク固有のヘッドを導入している。また、ネットワークの初期化を目的としたイテレーティブなモダリティスイッチングを用いた新しい事前学習戦略と、すべてのモダリティを同時に統合して学習する方法と、2つのモダリティずつを対象とした学習を繰り返す方法の間でトレードオフを取る学習アルゴリズムを提案する。12種類のモダリティからなる25のデータセットを対象とした包括的な評価を行い、最先端の性能を達成したことを示した。これにより、提案するアーキテクチャ、事前学習戦略、および適応型マルチタスク学習の有効性が実証された。

ソースPDF