2 个月前

CoHD:一种用于广义指代表达分割的计数感知层次解码框架

Luo, Zhuoyan ; Wu, Yinghao ; Cheng, Tianheng ; Liu, Yong ; Xiao, Yicheng ; Wang, Hongfa ; Zhang, Xiao-Ping ; Yang, Yujiu
CoHD:一种用于广义指代表达分割的计数感知层次解码框架
摘要

新提出的广义指代表达分割(Generalized Referring Expression Segmentation, GRES)通过引入复杂的多目标/非目标场景,扩展了经典指代表达分割(RES)的公式。近期的方法通过在广泛采用的RES框架中直接加入对象存在识别来解决GRES问题。然而,这些方法倾向于将多粒度的对象信息编码为单一表示,这使得难以精确表示不同粒度的综合对象。此外,在所有指代场景中简单地进行二元对象存在识别无法明确区分其内在差异,导致对象理解上的模糊性。为了应对上述问题,我们提出了一种计数感知的层次解码框架(Counting-Aware Hierarchical Decoding, CoHD)用于GRES。通过将复杂的指代语义分解为不同的粒度,并利用视觉-语言层次结构以及动态聚合内部和外部选择,CoHD增强了对多粒度对象的理解能力,并从层次结构的互惠效应中受益。此外,我们通过将多目标/单目标/非目标场景纳入数量级和类别级监督中,引入了计数能力,从而促进全面的对象感知。在gRefCOCO、Ref-ZOM、R-RefCOCO和RefCOCO基准数据集上的实验结果表明,CoHD的有效性和合理性显著优于现有的最先进的GRES方法。代码可在此处获取。

CoHD:一种用于广义指代表达分割的计数感知层次解码框架 | 最新论文 | HyperAI超神经