LAION-SG 是一个大规模高质量图像理解数据集,由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团于 2024 年构建,相关论文成果为「LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations」。 LAION-SG 包含 540,005 个带有对象、属性和关系注释的场景图-图像对,这些数据被分为训练集、验证集和测试集。数据集的图像来源于 LAION-Aesthetics V2 (6.5+) 数据集,注释过程使用了 GPT-4o 进行自动化注释。
与原始的 LAION-Aesthetics 数据集相比,LAION-SG 的平均注释长度和准确性都有所提高。该数据集的每个样本平均包含 6.39 个对象,对象信息增加了 20%,如果排除抽象专有名词,这一优势提升至 216% 。
LAION-SG 数据集适用于多种图像与文本的跨模态研究领域,包括图像描述生成、视觉问答系统以及图像检索等任务,这些任务均依赖于对图像内容的深入理解和语义解析。
做种 1
下载中 0
已完成 28
总下载 51