2 个月前
学习解释:通过思维链进行多模态推理以回答科学问题
Pan Lu; Swaroop Mishra; Tony Xia; Liang Qiu; Kai-Wei Chang; Song-Chun Zhu; Oyvind Tafjord; Peter Clark; Ashwin Kalyan

摘要
在回答问题时,人类会利用不同模态的信息来合成一条连贯且完整的思维链(Chain of Thought, CoT)。对于大规模语言模型等深度学习模型而言,这一过程通常是黑箱操作。最近,科学问题基准被用于诊断AI系统的多跳推理能力和可解释性。然而,现有的数据集要么未能提供答案注释,要么仅限于纯文本模态、小规模和有限的领域多样性。为此,我们提出了科学问答(ScienceQA)这一新基准,它包含约2.1万个具有多种科学主题的多模态多项选择题,并对答案进行了注释,提供了相应的讲座和解释。我们进一步设计了语言模型,使其能够生成讲座和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA展示了思维链(CoT)在语言模型中的实用性,因为CoT在少样本GPT-3中提升了1.20%的问题回答性能,在微调后的UnifiedQA中提升了3.99%。我们还探索了通过在输入中加入解释来提高模型性能的上限;观察到这可以将GPT-3的少样本性能提升18.96%。我们的分析进一步表明,类似于人类,语言模型也能从解释中受益,在较少的数据量下达到相同的表现水平,只需40%的数据即可实现同等性能。数据和代码可在https://scienceqa.github.io 获取。