Command Palette

Search for a command to run...

4ヶ月前

OmniVec2 - 大規模なマルチモーダルかつマルチタスク学習のための新規Transformerベースネットワーク

{Gaurav Sharma Siddharth Srivastava}

OmniVec2 - 大規模なマルチモーダルかつマルチタスク学習のための新規Transformerベースネットワーク

要約

本稿では、新たなマルチモーダル・マルチタスクネットワークおよび関連する学習アルゴリズムを提案する。本手法は、画像、動画、音声、テキスト、深度情報、ポイントクラウド、時系列データ、表形式データ、グラフ、X線、赤外線、IMU(慣性計測装置)、ハイパースペクトルの約12種類の異なるモダリティからのデータを処理可能な点が特徴である。提案手法は、モダリティごとに特化したトークナイザーと共有型のTransformerアーキテクチャ、およびクロスアテンション機構を用いて、異なるモダリティからのデータを統一された埋め込み空間にマッピングする。マルチモーダルかつマルチタスクの設定に対応するため、各モダリティに応じたタスク固有のヘッドを導入している。また、ネットワークの初期化を目的としたイテレーティブなモダリティスイッチングを用いた新しい事前学習戦略と、すべてのモダリティを同時に統合して学習する方法と、2つのモダリティずつを対象とした学習を繰り返す方法の間でトレードオフを取る学習アルゴリズムを提案する。12種類のモダリティからなる25のデータセットを対象とした包括的な評価を行い、最先端の性能を達成したことを示した。これにより、提案するアーキテクチャ、事前学習戦略、および適応型マルチタスク学習の有効性が実証された。

ベンチマーク

ベンチマーク方法論指標
3d-point-cloud-classification-on-modelnet40-cOmniVec2
Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnnOmniVec2
Overall Accuracy: 97.2
action-classification-on-kinetics-400OmniVec2
Acc@1: 93.6
action-classification-on-moments-in-timeOmniVec2
Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2OmniVec2
Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101OmniVec2
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec2
Test mAP: 0.558
audio-classification-on-esc-50OmniVec2
Accuracy (5-fold): 99.1
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1OmniVec2
Accuracy: 99.6
image-classification-on-imagenetOmniVec2
Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018OmniVec2
Top-1 Accuracy: 94.6
image-classification-on-places365OmniVec2
Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2OmniVec2
Mean IoU: 63.6
text-summarization-on-dialogsumOmniVec2
BertScore: 72.8
Rouge1: 47.6
Rouge2: 22.1
RougeL: 41.4
text-summarization-on-samsum-corpusOmniVec2
BertScoreF1: 65.1
ROUGE-1: 59.1
ROUGE-2: 34.1
ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2OmniVec2
text-to-video R@1: 26.1
text-to-video R@10: 70.8
text-to-video R@5: 54.1

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OmniVec2 - 大規模なマルチモーダルかつマルチタスク学習のための新規Transformerベースネットワーク | 論文 | HyperAI超神経