Command Palette
Search for a command to run...
{Gaurav Sharma Siddharth Srivastava}

要約
本稿では、新たなマルチモーダル・マルチタスクネットワークおよび関連する学習アルゴリズムを提案する。本手法は、画像、動画、音声、テキスト、深度情報、ポイントクラウド、時系列データ、表形式データ、グラフ、X線、赤外線、IMU(慣性計測装置)、ハイパースペクトルの約12種類の異なるモダリティからのデータを処理可能な点が特徴である。提案手法は、モダリティごとに特化したトークナイザーと共有型のTransformerアーキテクチャ、およびクロスアテンション機構を用いて、異なるモダリティからのデータを統一された埋め込み空間にマッピングする。マルチモーダルかつマルチタスクの設定に対応するため、各モダリティに応じたタスク固有のヘッドを導入している。また、ネットワークの初期化を目的としたイテレーティブなモダリティスイッチングを用いた新しい事前学習戦略と、すべてのモダリティを同時に統合して学習する方法と、2つのモダリティずつを対象とした学習を繰り返す方法の間でトレードオフを取る学習アルゴリズムを提案する。12種類のモダリティからなる25のデータセットを対象とした包括的な評価を行い、最先端の性能を達成したことを示した。これにより、提案するアーキテクチャ、事前学習戦略、および適応型マルチタスク学習の有効性が実証された。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40-c | OmniVec2 | Error Rate: 0.142 |
| 3d-point-cloud-classification-on-scanobjectnn | OmniVec2 | Overall Accuracy: 97.2 |
| action-classification-on-kinetics-400 | OmniVec2 | Acc@1: 93.6 |
| action-classification-on-moments-in-time | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-classification-on-moments-in-time-2 | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-recognition-in-videos-on-ucf101 | OmniVec2 | 3-fold Accuracy: 99.6 |
| audio-classification-on-audioset | OmniVec2 | Test mAP: 0.558 |
| audio-classification-on-esc-50 | OmniVec2 | Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1 |
| fine-grained-image-classification-on-oxford-1 | OmniVec2 | Accuracy: 99.6 |
| image-classification-on-imagenet | OmniVec2 | Top 1 Accuracy: 89.3% |
| image-classification-on-inaturalist-2018 | OmniVec2 | Top-1 Accuracy: 94.6 |
| image-classification-on-places365 | OmniVec2 | Top 1 Accuracy: 65.1 |
| semantic-segmentation-on-nyu-depth-v2 | OmniVec2 | Mean IoU: 63.6 |
| text-summarization-on-dialogsum | OmniVec2 | BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4 |
| text-summarization-on-samsum-corpus | OmniVec2 | BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7 |
| zero-shot-video-retrieval-on-youcook2 | OmniVec2 | text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1 |