Generalisierte Referenzexpressionssegmentierung
Generalized Referring Expression Segmentation (GRES) ist eine Aufgabe im Bereich der Computer Vision, die von Liu et al. auf der CVPR 2023 eingeführt wurde. Das Ziel dieser Aufgabe besteht darin, die Korrespondenz zwischen natürlichsprachlichen Ausdrücken und mehreren Zielobjekten in Bildern zu verwalten und die Masken der Zielobjekte vorherzusagen, wenn ein Bild und ein referierender Ausdruck gegeben sind. Der Anwendungswert von GRES liegt in der Verbesserung der Natürlichkeit und Genauigkeit der Mensch-Computer-Interaktion, insbesondere bei der Erkennung und Segmentierung mehrerer Objekte in komplexen Szenen.