Skalierbare Video-Objektsegmentierung mit Identifikationsmechanismus

Diese Arbeit untersucht die Herausforderungen bei der Erreichung skalierbarer und effektiver Mehrobjektmodellierung für semi-supervised Video Object Segmentation (VOS). Frühere VOS-Methoden dekodieren Merkmale mit einem einzigen positiven Objekt, was die Lernfähigkeit von Mehrobjektrepräsentationen einschränkt, da jeweils separat jedes Ziel erkannt und segmentiert werden muss. Zudem waren frühere Ansätze auf spezifische Anwendungsziele ausgelegt und fehlten an Flexibilität, um unterschiedliche Anforderungen an Geschwindigkeit und Genauigkeit zu erfüllen. Um diese Probleme zu lösen, präsentieren wir zwei innovative Ansätze: Associating Objects with Transformers (AOT) und Associating Objects with Scalable Transformers (AOST). Bei der Entwicklung effektiver Mehrobjektmodellierung führt AOT den IDentification (ID)-Mechanismus ein, der jedem Objekt eine eindeutige Identität zuweist. Dies ermöglicht es dem Netzwerk, die Beziehungen zwischen allen Objekten gleichzeitig zu modellieren und somit die Verfolgung und Segmentierung von Objekten in einem einzigen Durchlauf durch das Netzwerk zu realisieren. Um die Herausforderung der unflexiblen Bereitstellung zu bewältigen, integriert AOST skalierbare Long Short-Term Transformers, die skalierbare Supervision sowie layerweise, ID-basierte Aufmerksamkeit enthalten. Dadurch wird erstmals eine Online-Architekturskalierbarkeit in VOS ermöglicht und die Beschränkung der ID-Embeddings überwunden. Aufgrund des Fehlens eines Benchmarks für VOS mit dichter Mehrobjektannotierung schlagen wir den anspruchsvollen Video Object Segmentation in the Wild (VOSW)-Benchmark vor, um unsere Ansätze zu validieren. Wir evaluierten verschiedene Varianten von AOT und AOST anhand umfangreicher Experimente auf VOSW sowie fünf gängigen VOS-Benchmarks, darunter YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test und DAVIS-2016. Unsere Ansätze übertrumpfen konsistent die bisherigen State-of-the-Art-Methoden und zeigen außergewöhnliche Effizienz und Skalierbarkeit auf allen sechs Benchmarks. Projektseite: https://github.com/yoxu515/aot-benchmark.