Zur Verteidigung der faulen visuellen Verankerung für die semantische Segmentierung mit offenen Vokabularien

Wir präsentieren Lazy Visual Grounding, einen zweistufigen Ansatz zur unüberwachten Objektmaske-Entdeckung gefolgt von der Objektverankerung für die semantische Segmentierung mit offenen Vokabularien. Viele frühere Arbeiten stellen diese Aufgabe als Pixel-zu-Text-Klassifikation ohne objektorientierte Verständnis dar und nutzen die Bild-zu-Text-Klassifikationsfähigkeit vortrainierter Vision-and-Language-Modelle. Wir argumentieren, dass visuelle Objekte ohne vorherige Textinformationen unterscheidbar sind, da die Segmentierung im Wesentlichen eine visuelle Aufgabe ist. Lazy Visual Grounding entdeckt zunächst iterativ durch Normalisierte Schnitte (Normalized cuts) Objektmasken, die ein Bild abdecken, und weist dann in einem späteren Interaktionsprozess Text den entdeckten Objekten zu. Unser Modell erfordert keine zusätzliche Trainingsphase und zeigt dennoch ausgezeichnete Ergebnisse auf fünf öffentlichen Datensätzen: Pascal VOC, Pascal Context, COCO-Objekt, COCO-Stuff und ADE 20K. Insbesondere demonstrieren die ansprechenden segmentierten Bilder die Fähigkeit des Modells, Objekte präzise zu lokalisieren. Paper-Homepage: https://cvlab.postech.ac.kr/research/lazygrounding