HyperAIHyperAI

Command Palette

Search for a command to run...

Objekte mit Transformatoren für die Video-Objekt-Segmentierung assoziieren

Zongxin Yang Yunchao Wei Yi Yang

Zusammenfassung

Dieses Papier untersucht, wie eine bessere und effizientere Einbettungslernmethode realisiert werden kann, um die semisupervisierte Video-Objekt-Segmentierung in anspruchsvollen Mehrfachobjekt-Szenarien zu verbessern. Die derzeit besten Methoden lernen, Merkmale mit einem einzelnen positiven Objekt zu dekodieren, und müssen daher unter Mehrfachobjekt-Szenarien jedes Ziel einzeln abgleichen und segmentieren, was das Verbrauchen von mehreren Mal Rechenressourcen erfordert. Um dieses Problem zu lösen, schlagen wir einen Ansatz vor, der als „Associating Objects with Transformers“ (AOT) bezeichnet wird, um mehrere Objekte einheitlich abzugleichen und zu dekodieren. Im Detail verwendet AOT ein Identifikationsmechanismus, um mehrere Ziele in den gleichen hochdimensionalen Einbettungsraum zu ordnen. Dadurch können wir die Abgleichung und Segmentierung Dekodierung von mehreren Objekten so effizient gleichzeitig durchführen wie bei einem einzelnen Objekt. Für eine ausreichende Modellierung der Mehrfachobjekt-Assoziation wurde ein Long Short-Term Transformer entwickelt, um hierarchische Abgleichung und Propagation zu konstruieren. Wir führen umfangreiche Experimente sowohl auf Mehrfachobjekt- als auch auf Einzelobjekt-Benchmarks durch, um AOT-Varianten mit unterschiedlicher Komplexität zu überprüfen. Insbesondere übertreffen unsere R50-AOT-L alle aktuellen Konkurrenten auf drei beliebten Benchmarks: YouTube-VOS (84,1% J&F), DAVIS 2017 (84,9%) und DAVIS 2016 (91,1%), wobei sie gleichzeitig eine mehr als dreifache Geschwindigkeit bei der Mehrfachobjekt-Bearbeitung erreicht. Gleichzeitig kann unser AOT-T in den genannten Benchmarks Echtzeitspeed für Mehrfachobjekte aufrechterhalten. Basierend auf AOT belegten wir den ersten Platz im 3rd Large-scale VOS Challenge.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Objekte mit Transformatoren für die Video-Objekt-Segmentierung assoziieren | Paper | HyperAI