HyperAIHyperAI

Command Palette

Search for a command to run...

PaCE:具有渐进性和组合性的多模态对话预训练模型

Yunshui Li Binyuan Hui Zhichao Yin Min Yang Fei Huang Yongbin Li

摘要

感知多模态信息并实现与人类的对话是人工智能的长期目标。预训练通常被认为是实现多模态对话的有效方法。然而,由于多模态对话数据的有限可用性,目前对于多模态对话预训练的研究仍然较少。另一个引人关注的挑战来自于多模态对话的综合性,它涉及多种模态和任务。此外,未来可能会出现新的任务形式,而这些新形式的任务出现的时间点难以预测。因此,设计的多模态对话模型必须具备足够的灵活性以适应这些场景。本文提出了一种统一、结构化、组合式的多模态对话预训练框架——PaCE(Progressive and Compositional Experts)。该框架通过结合多个基础专家来支持多种与对话相关的任务,并且可以在有限的对话数据和大量的非对话多模态数据上进行预训练。此外,我们还提出了一种渐进式训练方法,其中过去的旧专家可以辅助新的专家,从而促进其能力的扩展。实验结果表明,PaCE在八个多模态对话基准测试中取得了最先进的成果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供