
摘要
大规模预训练模型展现出与其训练数据密切相关的独特且互补的能力。例如,像GPT-3这样的语言模型具备文本推理能力,却无法理解视觉信息;而像DALL-E这样的视觉模型虽能生成逼真的图像,却难以理解复杂的语言描述。在本研究中,我们提出了一种统一的框架,用于构建不同预训练模型的集成系统——通过融合各模型的各自优势,以零样本(zero-shot)方式解决多种多模态任务。我们利用预训练模型作为“生成器”或“评分器”,并通过闭环迭代共识优化机制进行组合:生成器提出候选结果,评分器则不断提供反馈以逐步优化生成内容。这种闭环交互机制使模型能够识别并纠正其他模型引入的错误,显著提升下游任务的表现,例如在小学数学问题上的准确率提升达7.5%,且无需任何模型微调。实验表明,由多个评分器组成的集成系统所达成的共识,优于单一评分器的反馈效果,充分挖掘了各专家模型的优势。结果证明,该方法可作为通用的零样本多模态任务框架,适用于图像生成、视频问答、数学推理以及机器人操作等多种场景。项目主页:https://energy-based-model.github.io/composing-pretrained-models。