HyperAIHyperAI
vor 2 Monaten

CoHD: Ein Zählbewusstes Hierarchisches Decodierframework für die Generalisierte Referenzierungsausdruckssegmentierung

Luo, Zhuoyan ; Wu, Yinghao ; Cheng, Tianheng ; Liu, Yong ; Xiao, Yicheng ; Wang, Hongfa ; Zhang, Xiao-Ping ; Yang, Yujiu
CoHD: Ein Zählbewusstes Hierarchisches Decodierframework für die Generalisierte Referenzierungsausdruckssegmentierung
Abstract

Der neu vorgeschlagene Generalisierte Referenzierungssegmentierung (GRES) erweitert die Formulierung der klassischen RES durch die Einbeziehung komplexer mehrfacher/nicht-zielgerichteter Szenarien. Aktuelle Ansätze behandeln GRES, indem sie die gut etablierten RES-Frameworks direkt mit der Identifikation von Objektexistenz erweitern. Allerdings neigen diese Ansätze dazu, Informationen über Objekte unterschiedlicher Granularität in eine einzige Darstellung zu kodieren, was es schwierig macht, umfassende Objekte verschiedener Granularität präzise darzustellen. Zudem führt die einfache binäre Identifikation der Objektexistenz in allen Referenzszenarien zu einer Vernachlässigung ihrer inhärenten Unterschiede und damit zu Unklarheiten bei der Objektinterpretation. Um die oben genannten Probleme anzugehen, schlagen wir ein \textbf{Z}ählungsbewusstes \textbf{H}ierarchisches \textbf{D}ekodierungsframework (CoHD) für GRES vor. Durch das Trennen der komplexen referentiellen Semantik in verschiedene Granularitäten mit einer visuell-linguistischen Hierarchie und dynamische Aggregation durch Intra- und Interselektion fördert CoHD das Verständnis unterschiedlicher Granularitäten gegenseitig nutzbringend. Des Weiteren integrieren wir die Zählfähigkeit, indem wir mehrfache/einzelne/nicht-zielgerichtete Szenarien in zähl- und kategoriebasierte Überwachung einbeziehen, was eine umfassende Objektwahrnehmung erleichtert. Experimentelle Ergebnisse auf den Benchmarks gRefCOCO, Ref-ZOM, R-RefCOCO und RefCOCO zeigen die Effektivität und Rationalität von CoHD, das deutlich bessere Ergebnisse als state-of-the-art-GRES-Methoden erzielt. Der Quellcode ist unter \href{https://github.com/RobertLuo1/CoHD}{diesem Link} verfügbar.请注意,这里的“法语”应该是“德语”,因此我在翻译时采用了德语。如果有任何其他需求或疑问,请告知。

CoHD: Ein Zählbewusstes Hierarchisches Decodierframework für die Generalisierte Referenzierungsausdruckssegmentierung | Neueste Forschungsarbeiten | HyperAI