11 天前

基于解码路径增强的一致性学习在Transformer用于人-物体交互检测中的应用

Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim
基于解码路径增强的一致性学习在Transformer用于人-物体交互检测中的应用
摘要

人-物体交互检测(Human-Object Interaction, HOI)是一项综合性的视觉识别任务,既包含物体检测,也涉及交互分类。以往的HOI检测方法通常采用多种子集预测的组合方式,例如:图像 → HO(人-物对) → I(交互类别),或图像 → HI(人-交互对) → O(物体)。近年来,基于Transformer的HOI检测架构应运而生,能够以端到端的方式直接预测HOI三元组(图像 → HOI)。受不同推理路径启发,我们提出了一种新的端到端学习策略——跨路径一致性学习(Cross-Path Consistency Learning, CPC),该方法通过利用增强的解码路径来提升Transformer架构在HOI检测中的性能。CPC学习机制强制所有由推理序列置换所产生的可能预测结果保持一致,这种简洁的训练方案促使模型学习到更具一致性的特征表示,从而在不增加模型容量的前提下显著提升泛化能力。实验结果表明,所提方法有效,相较于基线模型,在V-COCO和HICO-DET两个基准数据集上均取得了显著性能提升。相关代码已开源,地址为:https://github.com/mlvlab/CPChoi。

基于解码路径增强的一致性学习在Transformer用于人-物体交互检测中的应用 | 最新论文 | HyperAI超神经