17 天前
在视觉问答任务中实现人类水平的性能
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin

摘要
视觉问答(Visual Question Answering, VQA)任务通过融合视觉图像分析与语言理解,旨在根据给定图像回答文本形式的问题。在过去十年中,该任务因其广泛的实际应用前景而成为研究热点,相关研究持续蓬勃发展。本文介绍了我们近期在AliceMind-MMU(阿里巴巴达摩院机器智能实验室构建的编码器-解码器模型集合——多模态理解)方面的研究成果。该模型在VQA任务上的表现已达到甚至在某些情况下超越人类水平。这一突破主要得益于对VQA流水线的系统性优化,具体包括:(1)基于全面视觉与文本特征表示的预训练策略;(2)通过“学习注意力机制”实现高效的跨模态交互;(3)提出一种新颖的知识挖掘框架,集成针对复杂VQA任务设计的专业化专家模块。针对不同类型视觉问题采用相应专业能力进行处理,显著提升了模型整体性能,使其达到人类级水平。为充分验证该研究工作的有效性,我们开展了大量实验与深入分析,结果表明所提方法在多个标准数据集上均取得了优异表现,进一步证明了其在提升VQA系统智能水平方面的潜力与价值。