Hierarchisches Interaktionsnetzwerk für die Video-Objektsegmentierung aus Bezugsausdrücken

In diesem Artikel untersuchen wir das Problem der Video-Objekt-Segmentierung aus sprachlichen Referenzen (VOSRE). Herkömmliche Ansätze führen typischerweise eine multimodale Fusion basierend auf sprachlichen Merkmalen und visuellen Merkmalen durch, die aus der obersten Schicht des visuellen Encoders extrahiert werden, was die Fähigkeit dieser Modelle einschränkt, multimodale Eingaben auf verschiedenen semantischen und räumlichen Granularitätsebenen angemessen darzustellen. Um dieses Problem zu lösen, präsentieren wir ein end-to-end hierarchisches Interaktionsnetzwerk (HINet) für das VOSRE-Problem. Unser Modell nutzt die Merkmalspyramide, die vom visuellen Encoder generiert wird, um mehrere Ebenen multimodaler Merkmale zu erzeugen. Dadurch wird eine flexiblere Darstellung verschiedener sprachlicher Konzepte (z. B. Objektmerkmale und -kategorien) auf unterschiedlichen Ebenen der multimodalen Merkmale ermöglicht. Darüber hinaus extrahieren wir Signale bewegter Objekte aus dem Optischen Fluss und nutzen diese als ergänzende Hinweise, um den Referenten hervorzuheben und den Hintergrund mittels eines Bewegungsgates zu unterdrücken. Im Gegensatz zu früheren Methoden ermöglicht dieser Ansatz Online-Vorhersagen ohne die gesamte Videoeingabe zu erfordern. Trotz seiner Einfachheit erreicht unser vorgeschlagenes HINet auf den Datensätzen DAVIS-16, DAVIS-17 und J-HMDB eine Verbesserung gegenüber dem vorherigen Stand der Technik für die VOSRE-Aufgabe und demonstriert somit seine Wirksamkeit und Allgemeingültigkeit.