Mavors: 多粒度视频表示在多模态大语言模型中的应用
Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
发布日期: 4/16/2025

摘要
多模态大语言模型(MLLMs)在长视频理解方面面临一个关键挑战:在保持计算效率的同时保留细粒度的时空模式。现有的方法(例如稀疏采样、低分辨率密集采样和令牌压缩)在时间动态、空间细节或微妙交互方面存在显著的信息损失,特别是在包含复杂运动或不同分辨率的视频中。为了解决这一问题,我们提出了一种名为Mavors的新框架,该框架通过多粒度视频表示实现了整体的长视频建模。具体而言,Mavors通过两个核心组件直接将原始视频内容编码为潜在表示:1)一个块内视觉编码器(Intra-chunk Vision Encoder, IVE),通过3D卷积和视觉变换器保留高分辨率的空间特征;2)一个块间特征聚合器(Inter-chunk Feature Aggregator, IFA),利用基于变换器的依赖建模和块级旋转位置编码在不同块之间建立时间连贯性。此外,该框架通过子图像分解将图像视为单帧视频,统一了图像和视频理解。在多个基准测试中的实验结果表明,Mavors在保持空间保真度和时间连续性方面表现出色,在需要细粒度时空推理的任务中显著优于现有方法。