2ヶ月前

CoHD: 一般的参照表現セグメンテーションのためのカウント意識的な階層デコーディングフレームワーク

Luo, Zhuoyan ; Wu, Yinghao ; Cheng, Tianheng ; Liu, Yong ; Xiao, Yicheng ; Wang, Hongfa ; Zhang, Xiao-Ping ; Yang, Yujiu
CoHD: 一般的参照表現セグメンテーションのためのカウント意識的な階層デコーディングフレームワーク
要約

新しく提案された一般化参照表現分割(Generalized Referring Expression Segmentation: GRES)は、複雑な多重・非対象シナリオを含むことで、従来のRESの定式化を強化しています。最近のアプローチでは、物体存在識別を直接導入することで、既存のRESフレームワークを拡張してGRESに対処しています。しかし、これらのアプローチは異なる粒度の物体情報を単一の表現にエンコードする傾向があり、これにより異なる粒度の包括的な物体を正確に表現することが難しくなっています。さらに、すべての参照シナリオにおける単純な二値物体存在識別はそれらの固有の違いを特定できず、物体理解における曖昧さが生じてしまいます。これらの問題を解決するために、我々はCounting-Aware Hierarchical Decoding フレームワーク(CoHD)を提案します。視覚言語階層を使用して複雑な参照意味論を異なる粒度に分離し、内部選択と外部選択による動的集約を行うことで、CoHDは階層構造の相互利益を利用して多粒度理解を向上させます。また、カウント能力を取り入れることで、多重・単一・非対象シナリオをカウントレベルおよびカテゴリレベルの監督に組み込むことにより、包括的な物体認識が可能になります。gRefCOCO, Ref-ZOM, R-RefCOCO, および RefCOCOベンチマークでの実験結果は、CoHDの効果性と合理性を示しており、最先端のGRES手法に対して著しいマージンで優れた性能を発揮しています。コードは \href{https://github.com/RobertLuo1/CoHD}{こちら} から利用可能です。

CoHD: 一般的参照表現セグメンテーションのためのカウント意識的な階層デコーディングフレームワーク | 最新論文 | HyperAI超神経