HyperAIHyperAI
vor 7 Tagen

Ein einfaches Rahmenwerk für offene-Vokabular-Segmentierung und -Erkennung

Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang
Ein einfaches Rahmenwerk für offene-Vokabular-Segmentierung und -Erkennung
Abstract

Wir präsentieren OpenSeeD, einen einfachen Rahmen für offene Vokabulare Segmentierung und Detektion, der gemeinsam aus verschiedenen Segmentierungs- und Detektionsdatensätzen lernt. Um die Lücke zwischen Vokabular und Annotationsgenauigkeit zu schließen, führen wir zunächst einen vortrainierten Textencoder ein, der alle visuellen Konzepte in beiden Aufgaben kodiert und einen gemeinsamen semantischen Raum dafür erlernt. Dies ermöglicht bereits vergleichsweise gute Ergebnisse im Vergleich zu Modellen, die ausschließlich auf der Segmentierungsaufgabe trainiert wurden. Um diese Ergebnisse weiter zu verbessern, identifizieren wir zwei zentrale Diskrepanzen: $i$) Aufgabenunterschied – Segmentierung erfordert die Extraktion von Masken sowohl für vordere Objekte als auch für Hintergrund-Elemente („stuff“), während Detektion sich ausschließlich auf die vorderen Objekte konzentriert; $ii$) Datendifferenz – Box- und Maskenannotationen weisen unterschiedliche räumliche Granularität auf und sind daher nicht direkt austauschbar. Um diese Probleme zu lösen, schlagen wir eine entkoppelte Dekodierung vor, um die Interferenz zwischen Vordergrund und Hintergrund zu reduzieren, sowie eine konditionierte Maskendekodierung, um die Erzeugung von Masken für gegebene Boxen zu unterstützen. Darauf aufbauend entwickeln wir ein einfaches Encoder-Decoder-Modell, das alle drei Techniken integriert und gemeinsam auf COCO und Objects365 trainiert wird. Nach dem Vortrainieren zeigt unser Modell wettbewerbsfähige oder sogar überlegene Zero-Shot-Transferfähigkeit sowohl für Segmentierung als auch für Detektion. Insbesondere übertrifft OpenSeeD die derzeit beste Methode für offene Vokabulare Instanz- und Panoptic-Segmentierung auf fünf Datensätzen und erreicht bessere Ergebnisse bei der offenen Vokabulare Detektion auf LVIS und ODinW unter vergleichbaren Bedingungen. Bei der Übertragung auf spezifische Aufgaben erzielt unser Modell neue State-of-the-Art-Ergebnisse für Panoptic-Segmentierung auf COCO und ADE20K sowie für Instanzsegmentierung auf ADE20K und Cityscapes. Schließlich weisen wir darauf hin, dass OpenSeeD die erste Arbeit ist, die das Potenzial der gemeinsamen Trainingsstrategie für Segmentierung und Detektion erforscht, und hoffen, dass es als robuster Baseline für die Entwicklung eines einzigen Modells für beide Aufgaben im offenen Weltkontext dienen kann.

Ein einfaches Rahmenwerk für offene-Vokabular-Segmentierung und -Erkennung | Neueste Forschungsarbeiten | HyperAI