CTVIS: Konsistente Training für Online-Video-Instanzsegmentierung

Die Unterscheidung von Instanz-Embeddings spielt eine entscheidende Rolle bei der Zuordnung von Instanzen über die Zeit hinweg für Online-Video-Instanzsegmentierung (VIS). Die Lernung von Instanz-Embeddings erfolgt direkt durch eine kontrastive Verlustfunktion, die auf kontrastiven Elementen (CIs, contrastive items) basiert, wobei CIs Mengen aus Anchor-/Positive-/Negative-Embeddings darstellen. Rezenten Ansätzen zur Online-VIS wird lediglich ein Referenzframe zur Generierung der CIs herangezogen, was wir als unzureichend für die Entwicklung hochdiskriminativer Embeddings erachten. Intuitiv könnte eine Möglichkeit, die CIs zu verbessern, darin bestehen, die Inferenzphase während des Trainings zu replizieren. Dementsprechend schlagen wir eine einfache, jedoch wirksame Trainingsstrategie vor, die als Consistent Training for Online VIS (CTVIS) bezeichnet wird und darauf abzielt, die Trainings- und Inferenzpfade hinsichtlich der Erstellung von CIs zu vereinheitlichen. Konkret konstruiert CTVIS CIs durch Verwendung der momentum-gemittelten Embeddings und der Speichermechanismen der Memory-Bank sowie durch Hinzufügen von Rauschen zu den relevanten Embeddings. Diese Erweiterung ermöglicht eine zuverlässige Vergleichbarkeit zwischen den Embeddings aktueller Instanzen und den stabilen Darstellungen historischer Instanzen, wodurch ein Vorteil bei der Modellierung typischer VIS-Herausforderungen wie Verdeckung, Re-Identifikation und Deformation entsteht. Empirisch übertrifft CTVIS die derzeitigen State-of-the-Art-VIS-Modelle um bis zu +5,0 Punkte auf drei VIS-Benchmarks, darunter YTVIS19 (55,1 % AP), YTVIS21 (50,1 % AP) und OVIS (35,5 % AP). Darüber hinaus stellen wir fest, dass Pseudovideos, die aus Bildern transformiert wurden, robuste Modelle erzeugen können, die selbst vollständig überwachte Ansätze übertreffen.