HyperAIHyperAI
vor 2 Monaten

Visuelles Prompting für die verallgemeinerte Few-Shot-Segmentierung: Ein mehrskaliger Ansatz

Hossain, Mir Rayat Imtiaz ; Siam, Mennatullah ; Sigal, Leonid ; Little, James J.
Visuelles Prompting für die verallgemeinerte Few-Shot-Segmentierung: Ein mehrskaliger Ansatz
Abstract

Die Einführung von auf Aufmerksamkeit basierenden Transformer-Modellen hat zu ihrer umfassenden Verwendung in verschiedenen Aufgaben geführt, aufgrund ihrer überlegenen Generalisierung und Transfer-Eigenschaften. Neuere Forschungen haben gezeigt, dass solche Modelle bei angemessener Anregung für die Few-Shot-Inferenz hervorragend geeignet sind. Allerdings sind diese Techniken für dichte Vorhersageaufgaben wie die semantische Segmentierung noch wenig erforscht. In dieser Arbeit untersuchen wir die Effektivität der Anregung eines Transformer-Decoders mit gelernten visuellen Anreizen für die generalisierte Few-Shot-Segmentierung (GFSS). Unser Ziel ist es, starke Leistungen nicht nur bei neuen Kategorien mit begrenzten Beispielen zu erzielen, sondern auch die Leistung bei den Basis-Kategorien zu behalten. Wir schlagen einen Ansatz vor, um visuelle Anreize mit begrenzten Beispielen zu lernen. Diese gelernten visuellen Anreize werden verwendet, um einen mehrskaligen Transformer-Decoder anzuregen, um präzise dichte Vorhersagen zu ermöglichen. Zudem führen wir ein unidirektionales kausales Aufmerksamkeitsmechanismus zwischen den neuen Anreizen, die mit begrenzten Beispielen gelernt wurden, und den Basis-Anreizen, die mit reichlich Daten gelernt wurden, ein. Dieser Mechanismus bereichert die neuen Anreize ohne die Leistung der Basisklassen zu verschlechtern. Insgesamt hilft uns diese Form der Anregung dabei, den Stand der Technik in GFSS auf zwei unterschiedlichen Benchmark-Datensätzen zu erreichen: COCO-$20^i$ und Pascal-$5^i$, ohne Testzeitoptimierung (oder Transduktion) zu benötigen. Darüber hinainaus kann Testzeitoptimierung durch Nutzung unlabeilter Testdaten verwendet werden, um die Anreize weiter zu verbessern, was wir als transductive Prompt-Tuning bezeichnen.

Visuelles Prompting für die verallgemeinerte Few-Shot-Segmentierung: Ein mehrskaliger Ansatz | Neueste Forschungsarbeiten | HyperAI