MDQE: Mining Discriminative Query Embeddings zur Segmentierung occludierter Instanzen in anspruchsvollen Videos

Obwohl beachtliche Fortschritte erzielt wurden, versagen Video-Instance-Segmentation (VIS)-Methoden mit pro-Clip-Eingabe häufig bei anspruchsvollen Videos mit verdeckten Objekten und dicht besetzten Szenen. Dies liegt hauptsächlich daran, dass die Instanz-Abfragen in diesen Methoden die diskriminativen Embeddings der Instanzen nicht ausreichend erfassen, wodurch der abfragbasierte Segmentierer Schwierigkeiten hat, die sogenannten „schweren“ Instanzen voneinander zu unterscheiden. Um diese Probleme anzugehen, schlagen wir eine Methode zur Minierung diskriminativer Abfrage-Embeddings (MDQE) vor, um verdeckte Instanzen in anspruchsvollen Videos zu segmentieren. Zunächst initialisieren wir die räumlichen Embeddings und Inhaltseigenschaften der Objekt-Abfragen unter Berücksichtigung der räumlichen Kontextinformationen und der Bewegung zwischen den Bildern. Anschließend stellen wir eine inter-instanzbasierte Masken-Abstoßungsverlustfunktion vor, die jede Instanz von ihren benachbarten Nicht-Ziel-Instanzen entfernt. Die vorgeschlagene MDQE ist die erste VIS-Methode mit pro-Clip-Eingabe, die auf anspruchsvollen Videos Zustand der Kunst erzielt und gleichzeitig konkurrenzfähige Ergebnisse auf einfachen Videos erzielt. Genauer gesagt erreicht MDQE mit ResNet50 eine Masken-AP von 33,0 % auf OVIS und 44,5 % auf YouTube-VIS 2021. Der Quellcode von MDQE ist unter \url{https://github.com/MinghanLi/MDQE_CVPR2023} verfügbar.