Tief verflochtenes zweistromiges Encoder-Modell für die Bezugsvideosegmentierung

Die Aufgabe der referenziellen Video-Segmentierung besteht darin, das durch eine sprachliche Beschreibung charakterisierte Objekt innerhalb eines Videos zu segmentieren. Um diese Aufgabe zu bewältigen, entwerfen wir zunächst einen zweistrahligen Encoder, der hierarchisch visuelle Merkmale basierend auf CNN und sprachliche Merkmale basierend auf Transformer extrahiert. Ein vision-sprachliches gegenseitiges Führungssystem (VLMG) wird mehrfach innerhalb des Encoders integriert, um die hierarchische und progressive Fusion multimodaler Merkmale zu fördern. Im Gegensatz zu bestehenden Methoden zur multimodalen Fusion berücksichtigt dieser zweistrahlige Encoder den mehrgranularen sprachlichen Kontext und erreicht durch die Unterstützung des VLMG eine tiefe Verflechtung zwischen den Modalitäten. Um die zeitliche Ausrichtung zwischen den Bildern zu verbessern, schlagen wir zudem einen sprachgesteuerten, mehrskaligen dynamischen Filtermodul (LMDF) vor, der die zeitliche Kohärenz verstärkt. Dieser Modul nutzt sprachgesteuerte räumlich-zeitliche Merkmale, um eine Reihe von positionsspezifischen dynamischen Filtern zu generieren, die die Aktualisierung der Merkmale des aktuellen Bildes flexibler und effektiver gestalten. Umfassende Experimente an vier Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Modells.