2 个月前
通过自一致性训练提升小型多模态推理模型的能力以匹配大型模型
Cheng Tan; Jingxuan Wei; Zhangyang Gao; Linzhuang Sun; Siyuan Li; Ruifeng Guo; Bihui Yu; Stan Z. Li

摘要
多模态推理是一项具有挑战性的任务,需要模型在多种模态之间进行推理以回答问题。现有的方法通过将语言和视觉模态整合到一个两阶段推理框架中,将理由生成与答案推断分开,取得了一定的进展。然而,这些方法往往由于生成的理由质量不足而表现不佳。在这项工作中,我们深入探讨了理由在模型推理中的重要性。我们观察到,当理由完全准确时,模型的准确性显著提高,这突显了高质量理由生成的必要性。受此启发,我们提出了MC-CoT(Multi-Choice Chain-of-Thought),一种自一致性训练策略,该策略生成多个理由和答案,并通过投票过程选择最准确的一个。这种方法不仅提高了生成理由的质量,还使得答案更加准确和鲁棒。通过广泛的实验,我们证明了我们的方法在各种基准测试中显著提升了模型性能。值得注意的是,即使较小的基础模型,在配备了我们提出的方法后,也能达到与较大模型相当的结果,展示了我们的方法在利用高质量理由以改进多模态推理方面的潜力。代码可在 https://github.com/chengtan9907/mc-cot 获取。