HyperAIHyperAI

Command Palette

Search for a command to run...

CoHD:一种用于广义指代表达分割的计数感知层次解码框架

Zhuoyan Luo Yinghao Wu Tianheng Cheng Yong Liu Yicheng Xiao Hongfa Wang Xiao-Ping Zhang Yujiu Yang

摘要

新提出的广义指代表达分割(Generalized Referring Expression Segmentation, GRES)通过引入复杂的多目标/非目标场景,扩展了经典指代表达分割(RES)的公式。近期的方法通过在广泛采用的RES框架中直接加入对象存在识别来解决GRES问题。然而,这些方法倾向于将多粒度的对象信息编码为单一表示,这使得难以精确表示不同粒度的综合对象。此外,在所有指代场景中简单地进行二元对象存在识别无法明确区分其内在差异,导致对象理解上的模糊性。为了应对上述问题,我们提出了一种计数感知的层次解码框架(Counting-Aware Hierarchical Decoding, CoHD)用于GRES。通过将复杂的指代语义分解为不同的粒度,并利用视觉-语言层次结构以及动态聚合内部和外部选择,CoHD增强了对多粒度对象的理解能力,并从层次结构的互惠效应中受益。此外,我们通过将多目标/单目标/非目标场景纳入数量级和类别级监督中,引入了计数能力,从而促进全面的对象感知。在gRefCOCO、Ref-ZOM、R-RefCOCO和RefCOCO基准数据集上的实验结果表明,CoHD的有效性和合理性显著优于现有的最先进的GRES方法。代码可在此处获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供