8 天前

ChinaOpen:面向开放世界多模态学习的数据集

ChinaOpen:面向开放世界多模态学习的数据集
摘要

本文介绍了ChinaOpen,这是一个基于中国主流视频分享平台Bilibili构建的开放世界多模态学习数据集。尽管当前先进的多模态学习模型在自动视频标注和跨模态视频检索任务中已展现出卓越性能,但其训练与评估主要依赖于以英文文本标注的YouTube视频数据,其在中文语料上的有效性仍有待验证。为支持新场景下的多模态学习研究,我们构建了ChinaOpen-50k——一个包含5万条Bilibili视频的弱监督标注训练集,每条视频均配有用户生成的标题与标签。通过基于文本与内容的双重数据清洗策略,提前剔除低质量视频样本。为实现多维度评估,我们进一步构建了ChinaOpen-1k——一个由人工标注的测试集,包含1000条视频。每条测试视频均配有经人工校验的用户标题、人工撰写的视频描述(caption),以及对视频中所呈现物体、动作与场景的人工标注标签。同时,原始用户标签也经过人工审核。此外,所有中文文本均已翻译为英文,使得ChinaOpen-1k同样适用于在英文数据上训练的模型的跨语言评估。除数据集构建外,本文还提出了面向中文视频字幕生成的生成式视频到文本Transformer模型(Generative Video-to-text Transformer, GVT)。我们在新构建的数据集上对当前主流的单任务与多任务模型进行了广泛评估,获得了多项新发现与深入洞见。

ChinaOpen:面向开放世界多模态学习的数据集 | 最新论文 | HyperAI超神经