因果注意力(Causal Attention,简称 CATT)是一种创新性的注意力机制,它通过结合因果推断来提高模型的可解释性和性能,特别是在视觉-语言任务中。这种机制由南洋理工大学和澳大利亚莫纳什大学的研究人员在 2021 年提出,相关论文成果为「Causal Attention for Vision-Language Tasks」。
因果注意力的核心思想是使用因果推断中的「前门准则」来解决训练数据中存在的虚假相关性问题。在传统的自注意力机制中,由于缺乏监督,注意力权重可能会受到数据偏差的影响,导致模型在推理过程中产生误导。例如,在图像描述任务中,如果训练数据中「人骑马」的场景比「人驾驶马车」更多,模型可能会错误地将「骑」这个动作与「人」和「马」关联起来,而忽略了「马车」的存在。
为了解决这个问题,研究者们提出了因果注意力机制,它通过以下方法来识别和强化因果效应:
这种机制可以作为一个可插拔的模块,替换现有的自注意力机制,如 Transformer 中的注意力模块。实验结果表明,因果注意力能够显著提高模型在图像描述和视觉问答等任务上的性能。