HyperAI超神经
12 days ago

AnyCap 项目:可控全模态标题生成的统一框架、数据集和基准测试

Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
AnyCap 项目:可控全模态标题生成的统一框架、数据集和基准测试
摘要

可控字幕生成对于精确的多模态对齐和指令跟随至关重要,然而现有的模型通常缺乏细粒度控制和可靠的评估协议。为了解决这一问题,我们推出了AnyCap项目,这是一个涵盖模型、数据集和评估的综合解决方案。我们介绍了AnyCapModel(ACM),这是一种轻量级的即插即用框架,可以在不重新训练基础模型的情况下增强现有基础模型在全模态字幕生成中的可控性。ACM重用了基础模型原有的字幕,同时结合用户指令和模态特征生成改进后的字幕。为了缓解可控多模态字幕生成中数据稀缺的问题,我们构建了AnyCapDataset(ACD),该数据集覆盖了三种模态、28种用户指令类型以及30万条高质量数据记录。此外,我们提出了AnyCapEval,这是一个新的基准测试,通过解耦内容准确性和风格保真度提供了更可靠的可控字幕生成评估指标。ACM显著提高了在AnyCapEval上多种基础模型的字幕质量。特别是,ACM-8B将GPT-4o的内容得分提高了45%,风格得分提高了12%,并且在广泛使用的基准测试如MIA-Bench和VidCapBench上也取得了显著的进步。