9 天前

Mirasol3B:一种用于时间对齐与上下文模态的多模态自回归模型

AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
Mirasol3B:一种用于时间对齐与上下文模态的多模态自回归模型
摘要

多模态学习的主要挑战之一在于如何融合异构模态(如视频、音频、文本)。例如,视频和音频的采样频率远高于文本,且在时间上大致对齐;而文本通常作为全局上下文信息出现,如标题或描述,往往与视频和音频在时间上不同步。此外,视频和音频数据的体量远大于文本,且随视频时长增加而显著增长,这自然导致对这些模态需要更多的计算资源,同时也使得建模长程依赖关系变得更加困难。为此,我们提出将多模态建模过程解耦,构建一系列独立而专注的自回归模型,依据各模态的特性分别处理输入。我们提出了一种名为Mirasol3B的多模态模型,该模型包含两个自回归组件:一个用于处理时间同步的模态(音频与视频),另一个用于处理非严格时间对齐但具有序列特性的上下文模态。为应对视频-音频输入的长序列问题,我们进一步将视频与音频序列划分为连续的片段(snippets),并采用自回归方式逐片段处理其表示。为此,我们设计了一种Combiner机制,用于在时间窗口内联合建模音频与视频信息。Combiner能够从原始时空信号中学习提取音频与视频特征,并进一步融合这些特征,生成每个片段紧凑而富有表现力的统一表征。该方法在多个公认的标准多模态基准测试中取得了当前最优性能,超越了许多参数量更大的模型。通过学习紧凑的特征表示、控制音频-视频特征表示的序列长度,以及有效建模其时间依赖关系,该方法显著缓解了媒体输入带来的高计算需求问题。