日期
机构
发布地址
m3-it.github.io
标签
图像分类
分类
视觉对话
该数据集由 40 个数据集组成,其中包括 240 万个实例和 400 条手动编写的任务指令,并重新格式化为视觉到文本结构。数据集编译了经典视觉语言任务的各种任务,包括字幕、视觉问答(VQA)、视觉条件生成、推理和分类。