SafaRi: Adaptiver Sequenztransformer für schwach überwachte Referenzierungsexpressionssegmentierung

Die Segmentierung von Referenzausdrücken (Referring Expression Segmentation, RES) hat das Ziel, eine Segmentierungsmaske des in einem Bild durch den Text (d.h., den Referenzausdruck) bezeichneten Objekts bereitzustellen. Bestehende Methoden erfordern umfangreiche Maskenannotierungen. Darüber hinaus verallgemeinern solche Ansätze nicht gut auf unbekannte/Szenarien ohne vorherige Annotation (zero-shot scenarios). Um die genannten Probleme zu lösen, schlagen wir eine schwach überwachte Bootstrapping-Architektur für RES vor, die mehrere neue algorithmische Innovationen enthält. Nach unserem Wissen ist unser Ansatz der erste, der nur einen Bruchteil sowohl von Masken- als auch von Box-Annotierungen (siehe Abbildung 1 und Tabelle 1) für das Training verwendet. Um ein präzises Training von Modellen bei geringer Annotierung zu ermöglichen, die textbasierte Regionenanpassung auf Bildniveau zu verbessern und die räumliche Lokalisierung des Zielobjekts im Bild weiter zu optimieren, schlagen wir ein Modul zur multimodalen Fusion mit Aufmerksamkeitskonsistenz (Cross-modal Fusion with Attention Consistency) vor. Für die automatische Pseudobeschriftung unbeschrifteter Stichproben führen wir eine neuartige Routine zur Maskengültigkeitsfilterung (Mask Validity Filtering) ein, die auf einem raumbewussten zero-shot Vorschlagsbewertungsansatz basiert. Ausführliche Experimente zeigen, dass unser Modell SafaRi mit nur 30 % der Annotierungen 59,31 und 48,26 mIoU erreicht, verglichen mit den 58,93 und 48,19 mIoU, die durch die vollständig überwachte state-of-the-art Methode SeqTR jeweils auf den Datensätzen RefCOCO+@testA und RefCOCO+testB erzielt wurden. In einem vollständig überwachten Setting übertrifft SafaRi SeqTR um 11,7 % (auf RefCOCO+@testA) und 19,6 % (auf RefCOCO+@testB) und zeigt starke Verallgemeinerungsfähigkeiten in unbekannten/zero-shot Aufgaben.