Universelle Instanzwahrnehmung als Objekterkennung und -abruf

Alle Instanzwahrnehmungsaufgaben zielen darauf ab, bestimmte Objekte zu finden, die durch einige Anfragen wie Kategorienamen, Sprachausdrücke und Zielannotationen spezifiziert sind. Dieses gesamte Feld wurde jedoch in mehrere unabhängige Teilbereiche aufgeteilt. In dieser Arbeit präsentieren wir ein universelles Instanzwahrnehmungsmodell der nächsten Generation, das UNINEXT genannt wird. UNINEXT reformuliert verschiedene Instanzwahrnehmungsaufgaben in ein einheitliches Paradigma der Objekterkennung und -abruf und kann unterschiedliche Arten von Objekten flexibel wahrnehmen, indem man einfach die Eingabetipps ändert. Diese einheitliche Formulierung bringt folgende Vorteile: (1) riesige Datenmengen aus verschiedenen Aufgaben und Label-Vokabularien können für die gemeinsame Schulung allgemeiner instanzbasierter Repräsentationen genutzt werden, was insbesondere für Aufgaben mit mangelnden Trainingsdaten vorteilhaft ist. (2) Das einheitliche Modell ist parameter-effizient und kann redundante Berechnungen sparen, wenn es gleichzeitig mehrere Aufgaben bearbeitet. UNINEXT zeigt überlegene Leistungen auf 20 anspruchsvollen Benchmarks aus 10 instanzbasierten Aufgaben, darunter klassische bildbasierte Aufgaben (Objekterkennung und Instanzsegmentierung), visuelle-linguistische Aufgaben (Verstehen von Referenzausdrücken und Segmentierung) sowie sechs videobasierte Objektverfolgungsaufgaben. Der Quellcode ist unter https://github.com/MasterBin-IIAU/UNINEXT verfügbar.