Trennung der statischen und hierarchischen Bewegungswahrnehmung für die referenzbasierte Video-Segmentierung

Die referenzielle Video-Segmentierung nutzt natürlichsprachliche Ausdrücke, um Objekte zu identifizieren und zu segmentieren, wobei oft Bewegungshinweise betont werden. Frühere Arbeiten behandeln einen Satz als Ganzes und führen die Identifikation direkt auf Videoebene durch, was statische Bild-Level-Hinweise mit zeitlichen Bewegungshinweisen vermischt. Allerdings können Bild-Level-Features Bewegungshinweise in Sätzen nicht gut erfassen, und statische Hinweise sind für die zeitliche Wahrnehmung nicht entscheidend. Tatsächlich können statische Hinweise manchmal die zeitliche Wahrnehmung stören, indem sie die Bewegungshinweise überlagern. In dieser Arbeit schlagen wir vor, das Verständnis von referenziellen Ausdrücken auf Videoebene in statische und bewegte Wahrnehmung zu entkoppeln, wobei der Fokus darauf liegt, die zeitliche Wahrnehmung zu verbessern. Erstens führen wir ein Modul zur Entkopplung von Ausdrücken ein, um sicherzustellen, dass statische und bewegte Hinweise ihre jeweilige Rolle spielen und das Problem der Übersehen von Bewegungshinweisen durch Satz-Einbettungen zu mildern. Zweitens schlagen wir ein hierarchisches Modul zur Bewegungs-Wahrnehmung vor, um zeitliche Informationen effektiv über verschiedene Zeitskalen zu erfassen. Darüber hinaus verwenden wir kontrastives Lernen, um die Bewegungen visuell ähnlicher Objekte voneinander abzugrenzen. Diese Beiträge erzielen den aktuellen Stand der Technik in fünf Datensätzen, darunter eine bemerkenswerte Verbesserung von $\textbf{9.2\%}$ im $\mathcal{J\&F}$-Maß auf dem anspruchsvollen $\textbf{MeViS}$-Datensatz. Der Quellcode ist unter https://github.com/heshuting555/DsHmp verfügbar.