HyperAIHyperAI

Command Palette

Search for a command to run...

Unified-IO: 視覚、言語、および多モーダルタスクの統合モデル

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

概要

私たちは、Unified-IOというモデルを提案します。このモデルは、ポーズ推定、物体検出、深度推定、画像生成などの古典的なコンピュータビジョンのタスクから、領域キャプショニングや参照表現などビジュアル・アンド・ランゲージのタスク、さらには質問応答や言い換えなど自然言語処理のタスクまで、多様なAIタスクを実行します。このような多岐にわたるタスクに対して単一の統合されたモデルを開発することは、各タスクに関連する異種の入力と出力(RGB画像、画素ごとのマップ、バイナリマスク、バウンディングボックス、言語など)により独特の課題が生じます。私たちはこの統合を達成するために、すべてのサポートされる入力と出力を離散的な語彙トークンのシーケンスに均一化しました。これにより、視覚と言語分野における90以上の多様なデータセット上で共同で訓練できる単一のトランスフォーマーベースのアーキテクチャを使用することができます。Unified-IOはGRITベンチマークで7つのすべてのタスクを実行できる最初のモデルであり、NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, SciTailなどの16以上の多様なベンチマークにおいて強力な結果を示しています(各タスク固有の微調整なし)。Unified-IOに関するコードとデモは以下のURLで利用可能です: https://unified-io.allenai.org.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Unified-IO: 視覚、言語、および多モーダルタスクの統合モデル | 記事 | HyperAI超神経