HyperAIHyperAI

Command Palette

Search for a command to run...

SafaRi: Adaptiver Sequenztransformer für schwach überwachte Referenzierungsexpressionssegmentierung

Sayan Nag extsuperscript1,2 extsuperscript* Koustava Goswami extsuperscript2 Srikrishna Karanam extsuperscript2

Zusammenfassung

Die Segmentierung von Referenzausdrücken (Referring Expression Segmentation, RES) hat das Ziel, eine Segmentierungsmaske des in einem Bild durch den Text (d.h., den Referenzausdruck) bezeichneten Objekts bereitzustellen. Bestehende Methoden erfordern umfangreiche Maskenannotierungen. Darüber hinaus verallgemeinern solche Ansätze nicht gut auf unbekannte/Szenarien ohne vorherige Annotation (zero-shot scenarios). Um die genannten Probleme zu lösen, schlagen wir eine schwach überwachte Bootstrapping-Architektur für RES vor, die mehrere neue algorithmische Innovationen enthält. Nach unserem Wissen ist unser Ansatz der erste, der nur einen Bruchteil sowohl von Masken- als auch von Box-Annotierungen (siehe Abbildung 1 und Tabelle 1) für das Training verwendet. Um ein präzises Training von Modellen bei geringer Annotierung zu ermöglichen, die textbasierte Regionenanpassung auf Bildniveau zu verbessern und die räumliche Lokalisierung des Zielobjekts im Bild weiter zu optimieren, schlagen wir ein Modul zur multimodalen Fusion mit Aufmerksamkeitskonsistenz (Cross-modal Fusion with Attention Consistency) vor. Für die automatische Pseudobeschriftung unbeschrifteter Stichproben führen wir eine neuartige Routine zur Maskengültigkeitsfilterung (Mask Validity Filtering) ein, die auf einem raumbewussten zero-shot Vorschlagsbewertungsansatz basiert. Ausführliche Experimente zeigen, dass unser Modell SafaRi mit nur 30 % der Annotierungen 59,31 und 48,26 mIoU erreicht, verglichen mit den 58,93 und 48,19 mIoU, die durch die vollständig überwachte state-of-the-art Methode SeqTR jeweils auf den Datensätzen RefCOCO+@testA und RefCOCO+testB erzielt wurden. In einem vollständig überwachten Setting übertrifft SafaRi SeqTR um 11,7 % (auf RefCOCO+@testA) und 19,6 % (auf RefCOCO+@testB) und zeigt starke Verallgemeinerungsfähigkeiten in unbekannten/zero-shot Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp