日期
机构
发布地址
m3-it.github.io
标签
画像分類
分类
視覚的な対話
このデータセットは 40 個のデータセットで構成されています。これには、240 万のインスタンスと 400 の手動で作成されたタスク指示が含まれます。そしてビジュアルからテキストへの構造に再フォーマットされました。このデータセットは、字幕、視覚的質問応答 (VQA)、視覚状態の生成、推論、分類など、古典的な視覚言語タスクからさまざまなタスクをコンパイルしています。