
摘要
关于视频动态的因果与时间推理是一个具有挑战性的问题。尽管融合符号推理与神经网络感知及预测能力的神经符号模型展现出一定潜力,但在回答反事实问题方面仍存在局限性。本文提出一种方法,通过利用事件之间因果关系的符号推理,增强神经符号模型在反事实推理方面的能力。我们引入因果图(causal graph)的概念来表征事件间的因果关系,并采用答案集编程(Answer Set Programming, ASP)——一种声明式逻辑编程方法——来协调感知模块与仿真模块的运行。我们在两个基准数据集 CLEVRER 和 CRAFT 上验证了该方法的有效性。实验结果表明,该方法在 CLEVRER 挑战中达到当前最优性能,显著优于现有模型。在 CRAFT 基准上,我们借助大型预训练语言模型(如 GPT-3.5 和 GPT-4)作为动力学模拟器的代理,进一步提升了模型在反事实问题上的表现。研究发现,通过符号因果推理指导生成的替代提示(alternative prompts),能够有效增强模型在反事实推理任务中的能力。