
摘要
在现实世界中,用户生成的短视频,尤其是那些在微信视频号和抖音等平台上发布的视频,主导着移动互联网。然而,目前的大型多模态模型缺乏必要的时序结构化、详细且深入的视频理解能力,而这些能力是有效视频搜索与推荐,以及新兴视频应用的基础。由于现实世界短视频包含复杂的视觉元素、视觉和音频信息密度高,且节奏快,注重情感表达和观点传达,因此对其理解具有挑战性。这需要先进的推理能力,以有效地整合包括视觉、音频和文本在内的多模态信息。在本研究中,我们提出了ARC-Hunyuan-Video,这是一种能够从原始视频输入中端到端处理视觉、音频和文本信号,实现结构化理解的多模态模型。该模型具备多粒度的时间戳视频描述与摘要生成、开放式视频问答、时序视频定位以及视频推理能力。我们通过一个全面的训练流程对模型进行了训练,包括预训练、指令微调、冷启动、强化学习(RL)后的微调以及最终的指令微调,利用了来自自动化标注流程的高质量数据。该模型参数量为7B,结构紧凑。在我们提出的基准测试集ShortVid-Bench上的定量评估以及定性比较表明,该模型在现实世界视频理解方面表现出色,并且能够支持零样本(zero-shot)或少量样本微调,以适应多种下游应用场景。我们的模型在现实世界中的生产部署已显著提升了用户参与度和满意度,这一成果得到了其卓越效率的支持,压力测试显示,在H20 GPU上处理一分钟的视频,推理时间仅为10秒。