GRES: Generalisierte Referenzierungsausdruckssegmentierung

Die Referring Expression Segmentation (RES) hat das Ziel, eine Segmentierungsmaske für das Objekt zu generieren, das durch einen gegebenen sprachlichen Ausdruck beschrieben wird. Bestehende klassische RES-Datensätze und -Methoden unterstützen in der Regel nur Einzelziel-Ausdrücke, d. h., ein Ausdruck bezieht sich auf ein einzelnes Zielobjekt. Mehrfachziel- und keine-Ziel-Ausdrücke werden nicht berücksichtigt. Dies begrenzt die praktische Anwendung von RES. In dieser Arbeit stellen wir eine neue Benchmark genannt Generalized Referring Expression Segmentation (GRES) vor, die die klassische RES erweitert, um Ausdrücke zuzulassen, die sich auf eine beliebige Anzahl von Zielobjekten beziehen. Dafür haben wir den ersten groß angelegten GRES-Datensatz namens gRefCOCO erstellt, der mehrfachziel-, keine-Ziel- und einzelziel-Ausdrücke enthält. GRES und gRefCOCO sind so konzipiert, dass sie gut mit RES vereinbar sind, was es ermöglicht, umfangreiche Experimente durchzuführen, um die Leistungslücken der bestehenden RES-Methoden bei der GRES-Aufgabe zu untersuchen. Im experimentellen Studien haben wir festgestellt, dass eines der größten Herausforderungen bei GRES die Modellierung komplexer Beziehungen ist. Auf dieser Grundlage schlagen wir eine regionsbasierte GRES-Basislinie vor, ReLA (Region-based Language Adaptation), die das Bild adaptive in Regionen unterteilt, die subinstanz-spezifische Hinweise enthalten, und explizit die Abhängigkeiten zwischen Regionen und Sprache modelliert. Der vorgeschlagene Ansatz ReLA erreicht neue Standarte der Technik (state-of-the-art) in den Leistungen sowohl bei den neu vorgeschlagenen GRES- als auch bei den klassischen RES-Aufgaben. Der vorgeschlagene gRefCOCO-Datensatz und -Ansatz sind unter https://henghuiding.github.io/GRES verfügbar.