Untersuchung vortrainierter Text-zu-Video-Diffusionsmodelle für die Bezugsvideobjektssegmentierung

In diesem Artikel untersuchen wir die visuellen Darstellungen, die aus einem vortrainierten text-zu-video (T2V)-Diffusionsmodell für Aufgaben des Videoverstehens generiert werden. Wir vermuten, dass die latente Darstellung, die aus einem vortrainierten generativen T2V-Modell gelernt wurde, reiche Semantik und kohärente zeitliche Korrespondenzen enthält, wodurch sie sich natürlich für das Videoverstehen eignet. Diese Hypothese wird anhand der klassischen Aufgabe der referierenden Videoobjektsegmentierung (R-VOS) bestätigt. Wir stellen einen neuen Ansatz namens „VD-IT“ vor, der speziell mit gezielt entworfenen Komponenten auf einem festgehaltenen vortrainierten T2V-Modell aufgebaut ist. Insbesondere nutzt VD-IT textuelle Informationen als bedingte Eingabe, um eine semantische Konsistenz über die Zeit hinweg zu gewährleisten und präzise zeitliche Instanzübereinstimmungen zu ermöglichen. Zudem integriert das Verfahren Bildtokens als ergänzende textuelle Eingaben, um das Merkmalsrepertoire zu bereichern und detaillierte sowie nuancierte Masken zu erzeugen. Darüber hinaus schlagen wir vor, anstelle der üblichen Gaußschen Rauschkomponente das video-spezifische Rauschen mittels eines zusätzlichen Rauschvorhersagemoduls vorherzusagen, was zur Erhaltung der Merkmalfidelität beiträgt und die Segmentierungsqualität verbessert. In umfangreichen Experimenten beobachten wir überraschenderweise, dass feste generative T2V-Diffusionsmodelle, im Gegensatz zu häufig verwendeten Video-Backbones (z. B. Video Swin Transformer), die mit diskriminativen Bild-/Video-Vortrainingsaufgaben vortrainiert wurden, ein höheres Potenzial aufweisen, die semantische Ausrichtung und zeitliche Konsistenz zu bewahren. Auf etablierten Standardbenchmarks erzielt unser VD-IT äußerst wettbewerbsfähige Ergebnisse und übertrifft viele bestehende State-of-the-Art-Methoden. Der Quellcode ist unter https://github.com/buxiangzhiren/VD-IT verfügbar.