11 天前

类人化偏置:面向场景图生成的认知偏置框架

Xiaoguang Chang, Teng Wang, Changyin Sun, Wenzhe Cai
类人化偏置:面向场景图生成的认知偏置框架
摘要

场景图生成是一项复杂的任务,其难点在于缺乏明确的识别模式(例如,“注视”与“靠近”在视觉上并无显著差异,而“靠近”关系可能存在于形态迥异的实体之间)。因此,部分现有的场景图生成方法容易受到视觉特征的随机性以及数据集标注的琐碎性影响,导致模型倾向于预测最常见的关系,从而产生偏差。为此,近期研究强调采用“无偏”(unbiased)方法,以平衡各类关系的预测,从而生成更具信息量的场景图。然而,人类能够快速且准确地判断多个物体之间的关系,恰恰依赖于“认知偏见”——即基于经验与语言知识的先验认知,而非纯粹的视觉感知。受此“认知偏见”机制的启发,我们提出了一种全新的三范式框架,模拟人类如何将标签的语言特征作为视觉表征的引导,以更有效地挖掘隐藏的关系模式,并缓解噪声视觉信息的传播。该框架具有模型无关性,可兼容任意场景图生成模型。大量实验证明,所提框架在多个评估指标上均显著优于基线模块,仅引入极少量参数增量,并在Visual Genome数据集上取得了新的最先进(SOTA)性能。

类人化偏置:面向场景图生成的认知偏置框架 | 最新论文 | HyperAI超神经