2 个月前

交替梯度下降和专家混合模型在集成多模态感知中的应用

Hassan Akbari; Dan Kondratyuk; Yin Cui; Rachel Hornung; Huisheng Wang; Hartwig Adam
交替梯度下降和专家混合模型在集成多模态感知中的应用
摘要

我们介绍了集成多模态感知(Integrated Multimodal Perception, IMP),这是一种简单且可扩展的多模态多任务训练和建模方法。IMP 将图像、视频、文本和音频等多种模态输入整合到一个单一的 Transformer 编码器中,仅包含最少的模态特定组件。IMP 利用了一种新颖的设计,结合了交替梯度下降(Alternating Gradient Descent, AGD)和专家混合(Mixture-of-Experts, MoE),以实现高效的模型和任务扩展。我们进行了广泛的实证研究,并揭示了以下关键见解:1) 通过在不同模态、损失函数和任务之间交替进行梯度下降更新,并使用不同的输入分辨率,可以高效地提升模型性能。2) 在单个模态无关编码器上应用 MoE 稀疏化显著提高了性能,优于使用模态特定编码器或额外融合层的密集模型,并大大缓解了不同模态之间的冲突。IMP 在包括视频分类、图像分类、图像-文本检索和视频-文本检索在内的多种下游任务中表现出色。尤为值得一提的是,我们训练了一个专注于视频任务的稀疏 IMP-MoE-L 变体,在零样本视频分类方面达到了新的最先进水平:在 Kinetics-400 数据集上达到 77.0%,Kinetics-600 数据集上达到 76.8%,Kinetics-700 数据集上达到 68.3%,分别比之前的最先进水平提高了 +5%、+6.7% 和 +5.8%,同时仅使用了它们总训练计算成本的 15%。

交替梯度下降和专家混合模型在集成多模态感知中的应用 | 最新论文 | HyperAI超神经