2ヶ月前

Unified-IO: 視覚、言語、および多モーダルタスクの統合モデル

Lu, Jiasen ; Clark, Christopher ; Zellers, Rowan ; Mottaghi, Roozbeh ; Kembhavi, Aniruddha
Unified-IO: 視覚、言語、および多モーダルタスクの統合モデル
要約

私たちは、Unified-IOというモデルを提案します。このモデルは、ポーズ推定、物体検出、深度推定、画像生成などの古典的なコンピュータビジョンのタスクから、領域キャプショニングや参照表現などビジュアル・アンド・ランゲージのタスク、さらには質問応答や言い換えなど自然言語処理のタスクまで、多様なAIタスクを実行します。このような多岐にわたるタスクに対して単一の統合されたモデルを開発することは、各タスクに関連する異種の入力と出力(RGB画像、画素ごとのマップ、バイナリマスク、バウンディングボックス、言語など)により独特の課題が生じます。私たちはこの統合を達成するために、すべてのサポートされる入力と出力を離散的な語彙トークンのシーケンスに均一化しました。これにより、視覚と言語分野における90以上の多様なデータセット上で共同で訓練できる単一のトランスフォーマーベースのアーキテクチャを使用することができます。Unified-IOはGRITベンチマークで7つのすべてのタスクを実行できる最初のモデルであり、NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, SciTailなどの16以上の多様なベンチマークにおいて強力な結果を示しています(各タスク固有の微調整なし)。Unified-IOに関するコードとデモは以下のURLで利用可能です: https://unified-io.allenai.org.

Unified-IO: 視覚、言語、および多モーダルタスクの統合モデル | 最新論文 | HyperAI超神経