DVIS-DAQ: Verbesserung der Video-Segmentierung durch dynamische Ankerabfragen

Moderne Video-Segmentierungsmethoden verwenden Objektanfragen, um die Zuordnung zwischen Frames durchzuführen, und zeigen zufriedenstellende Leistungen bei der Verfolgung von kontinuierlich auftretenden Objekten trotz großer Bewegungen und vorübergehender Verdeckungen. Allerdings unterperformen sie bei neu auftauchenden und verschwindenden Objekten, die in der Realität häufig vorkommen, da sie versuchen, das Auftreten und Verschwinden von Objekten durch Merkmalsübergänge zwischen Hintergrund- und Vordergrundanfragen zu modellieren, die erhebliche Merkmalslücken aufweisen. Wir führen dynamische Ankeranfragen (Dynamic Anchor Queries, DAQ) ein, um den Übergang zwischen den Anker- und Zielanfragen zu verkürzen, indem wir Ankeranfragen dynamisch basierend auf den Merkmalen potentieller Kandidaten generieren. Des Weiteren stellen wir eine Strategie zur Simulation des Auftretens und Verschwindens von Objekten auf Anfrageebene (Emergence and Disappearance Simulation, EDS) vor, die das Potenzial von DAQ ohne zusätzlichen Aufwand ausschöpft. Schließlich kombinieren wir unsere vorgeschlagenen DAQ und EDS mit DVIS, um DVIS-DAQ zu erhalten. Ausführliche Experimente zeigen, dass DVIS-DAQ eine neue Standarte (state-of-the-art) in fünf Hauptvideo-Segmentierungsbenchmarks erreicht. Der Quellcode und die Modelle sind unter \url{https://github.com/SkyworkAI/DAQ-VS} verfügbar.