M³IT:多模式多语言指令调优数据集

日期

10 个月前

机构

The University of Hong Kong

发布地址

m3-it.github.io

下载帮助

该数据集由 40 个数据集组成,其中包括 240 万个实例和 400 条手动编写的任务指令,并重新格式化为视觉到文本结构。数据集编译了经典视觉语言任务的各种任务,包括字幕、视觉问答(VQA)、视觉条件生成、推理和分类。