M³IT: マルチモーダル多言語命令チューニング データセット

日付

2年前

組織

香港大学

論文URL

arxiv.org

ダウンロードヘルプ

このデータセットは 40 個のデータセットで構成されています。これには、240 万のインスタンスと 400 の手動で作成されたタスク指示が含まれます。そしてビジュアルからテキストへの構造に再フォーマットされました。このデータセットは、字幕、視覚的質問応答 (VQA)、視覚状態の生成、推論、分類など、古典的な視覚言語タスクからさまざまなタスクをコンパイルしています。