Find First, Track Next: Entkoppelung von Identifikation und Propagation in der Bezugsvideobjektsegmentierung

Die Referenz-basierte Video-Objektsegmentierung zielt darauf ab, ein Zielobjekt in einem Video mithilfe einer natürlichen Sprachanweisung zu segmentieren und zu verfolgen. Bestehende Methoden fusionieren visuelle und textuelle Merkmale in einer stark verflochtenen Weise und verarbeiten multimodale Informationen gemeinsam, um maskenbasierte Ergebnisse pro Frame zu generieren. Dieser Ansatz leidet jedoch häufig unter mehrdeutiger Objekterkennung, insbesondere in Szenen mit mehreren ähnlichen Objekten, und gewährleistet nicht eine konsistente Maskenweitergabe über die Frames hinweg. Um diese Einschränkungen zu überwinden, stellen wir FindTrack vor, einen neuartigen, entkoppelten Rahmenwerk, der die Zielobjekterkennung von der Maskenverfolgung trennt. FindTrack wählt zunächst adaptiv einen Schlüsselbild, indem es die Segmentierungssicherheit und die Ausrichtung zwischen Vision und Text abwägt, um eine robuste Referenz für das Zielobjekt zu schaffen. Diese Referenz wird anschließend von einem spezialisierten Verfolgungsmodul genutzt, um das Objekt über das gesamte Video hinweg zu verfolgen und zu segmentieren. Durch die Entkopplung dieser Prozesse reduziert FindTrack effektiv Unsicherheiten bei der Objektzuordnung und verbessert die Konsistenz der Segmentierung. Wir zeigen, dass FindTrack bestehende Methoden auf öffentlichen Benchmark-Datenbanken übertrifft.