HyperAIHyperAI

Command Palette

Search for a command to run...

Trennung der statischen und hierarchischen Bewegungswahrnehmung für die referenzbasierte Video-Segmentierung

Shuting He Henghui Ding

Zusammenfassung

Die referenzielle Video-Segmentierung nutzt natürlichsprachliche Ausdrücke, um Objekte zu identifizieren und zu segmentieren, wobei oft Bewegungshinweise betont werden. Frühere Arbeiten behandeln einen Satz als Ganzes und führen die Identifikation direkt auf Videoebene durch, was statische Bild-Level-Hinweise mit zeitlichen Bewegungshinweisen vermischt. Allerdings können Bild-Level-Features Bewegungshinweise in Sätzen nicht gut erfassen, und statische Hinweise sind für die zeitliche Wahrnehmung nicht entscheidend. Tatsächlich können statische Hinweise manchmal die zeitliche Wahrnehmung stören, indem sie die Bewegungshinweise überlagern. In dieser Arbeit schlagen wir vor, das Verständnis von referenziellen Ausdrücken auf Videoebene in statische und bewegte Wahrnehmung zu entkoppeln, wobei der Fokus darauf liegt, die zeitliche Wahrnehmung zu verbessern. Erstens führen wir ein Modul zur Entkopplung von Ausdrücken ein, um sicherzustellen, dass statische und bewegte Hinweise ihre jeweilige Rolle spielen und das Problem der Übersehen von Bewegungshinweisen durch Satz-Einbettungen zu mildern. Zweitens schlagen wir ein hierarchisches Modul zur Bewegungs-Wahrnehmung vor, um zeitliche Informationen effektiv über verschiedene Zeitskalen zu erfassen. Darüber hinaus verwenden wir kontrastives Lernen, um die Bewegungen visuell ähnlicher Objekte voneinander abzugrenzen. Diese Beiträge erzielen den aktuellen Stand der Technik in fünf Datensätzen, darunter eine bemerkenswerte Verbesserung von 9.2%\textbf{9.2\%}9.2% im J&F\mathcal{J\&F}J&F-Maß auf dem anspruchsvollen MeViS\textbf{MeViS}MeViS-Datensatz. Der Quellcode ist unter https://github.com/heshuting555/DsHmp verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Trennung der statischen und hierarchischen Bewegungswahrnehmung für die referenzbasierte Video-Segmentierung | Paper | HyperAI