Geführte Slot-Aufmerksamkeit für die unüberwachte Video-Objekt-Segmentierung

Die unüberwachte VideoobjektsSegmentierung zielt darauf ab, das prominenteste Objekt in einer Videosequenz zu segmentieren. Allerdings machen die Existenz komplexer Hintergründe und mehrerer Vordergrundobjekte diese Aufgabe herausfordernd. Um dieses Problem anzugehen, schlagen wir ein geführtes Slot-Attention-Netzwerk vor, um räumliche Strukturinformationen zu verstärken und eine bessere Trennung zwischen Vordergrund und Hintergrund zu erreichen. Die Vordergrund- und Hintergrundslots, die mit Abfrageleitungen initialisiert werden, werden auf Basis von Interaktionen mit Vorlagendaten iterativ verfeinert. Darüber hinaus werden, um die Interaktion zwischen Slots und Vorlagen zu verbessern und globale und lokale Merkmale in den Ziel- und Referenzframes effektiv zu fusionieren, K-nächste-Nachbarn-Filterung und ein Feature-Aggregation-Transformer eingeführt. Das vorgeschlagene Modell erzielt Spitzenleistungen auf zwei gängigen Datensätzen. Zudem zeigen wir durch verschiedene vergleichende Experimente die Robustheit des vorgeschlagenen Modells in anspruchsvollen Szenarien.