6 个月前

摘要

多模态学习的主要挑战之一在于如何融合异构模态（如视频、音频、文本）。例如，视频和音频的采样频率远高于文本，且在时间上大致对齐；而文本通常作为全局上下文信息出现，如标题或描述，往往与视频和音频在时间上不同步。此外，视频和音频数据的体量远大于文本，且随视频时长增加而显著增长，这自然导致对这些模态需要更多的计算资源，同时也使得建模长程依赖关系变得更加困难。为此，我们提出将多模态建模过程解耦，构建一系列独立而专注的自回归模型，依据各模态的特性分别处理输入。我们提出了一种名为Mirasol3B的多模态模型，该模型包含两个自回归组件：一个用于处理时间同步的模态（音频与视频），另一个用于处理非严格时间对齐但具有序列特性的上下文模态。为应对视频-音频输入的长序列问题，我们进一步将视频与音频序列划分为连续的片段（snippets），并采用自回归方式逐片段处理其表示。为此，我们设计了一种Combiner机制，用于在时间窗口内联合建模音频与视频信息。Combiner能够从原始时空信号中学习提取音频与视频特征，并进一步融合这些特征，生成每个片段紧凑而富有表现力的统一表征。该方法在多个公认的标准多模态基准测试中取得了当前最优性能，超越了许多参数量更大的模型。通过学习紧凑的特征表示、控制音频-视频特征表示的序列长度，以及有效建模其时间依赖关系，该方法显著缓解了媒体输入带来的高计算需求问题。

源 PDF