2 个月前

从偏差训练中生成无偏场景图

Kaihua Tang; Yulei Niu; Jianqiang Huang; Jiaxin Shi; Hanwang Zhang
从偏差训练中生成无偏场景图
摘要

当今的场景图生成(Scene Graph Generation, SGG)任务仍然远未达到实用水平,主要原因是严重的训练偏差,例如将多样化的“人在沙滩上行走/坐下/躺下”简化为“人在沙滩上”。鉴于这种SGG,下游任务如视觉问答(Visual Question Answering, VQA)几乎无法推断出比单纯的对象集合更好的场景结构。然而,在SGG中消除偏差并非易事,因为传统的去偏差方法无法区分有益偏差和有害偏差,例如有益的情境先验(如“人读书”而非“吃东西”)和有害的长尾偏差(如“靠近”占据主导地位而忽视了“在……后面/前面”)。本文提出了一种基于因果推理而非传统似然性的新型SGG框架。我们首先为SGG构建了一个因果图,并使用该图进行传统的有偏训练。然后,我们建议从训练后的图中提取反事实因果关系以推断有害偏差的影响,这些影响需要被移除。具体而言,我们使用总直接效应(Total Direct Effect, TDE)作为最终的无偏谓词得分。需要注意的是,我们的框架对任何SGG模型都是通用的,因此可以在寻求无偏预测的社区中广泛应用。通过在SGG基准数据集Visual Genome以及几种主流模型上使用我们提出的场景图诊断工具包,我们观察到与之前最先进的方法相比有了显著改进。

从偏差训练中生成无偏场景图 | 最新论文 | HyperAI超神经