HyperAIHyperAI

Command Palette

Search for a command to run...

Tief verflochtenes zweistromiges Encoder-Modell für die Bezugsvideosegmentierung

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Zusammenfassung

Die Aufgabe der referenziellen Video-Segmentierung besteht darin, das durch eine sprachliche Beschreibung charakterisierte Objekt innerhalb eines Videos zu segmentieren. Um diese Aufgabe zu bewältigen, entwerfen wir zunächst einen zweistrahligen Encoder, der hierarchisch visuelle Merkmale basierend auf CNN und sprachliche Merkmale basierend auf Transformer extrahiert. Ein vision-sprachliches gegenseitiges Führungssystem (VLMG) wird mehrfach innerhalb des Encoders integriert, um die hierarchische und progressive Fusion multimodaler Merkmale zu fördern. Im Gegensatz zu bestehenden Methoden zur multimodalen Fusion berücksichtigt dieser zweistrahlige Encoder den mehrgranularen sprachlichen Kontext und erreicht durch die Unterstützung des VLMG eine tiefe Verflechtung zwischen den Modalitäten. Um die zeitliche Ausrichtung zwischen den Bildern zu verbessern, schlagen wir zudem einen sprachgesteuerten, mehrskaligen dynamischen Filtermodul (LMDF) vor, der die zeitliche Kohärenz verstärkt. Dieser Modul nutzt sprachgesteuerte räumlich-zeitliche Merkmale, um eine Reihe von positionsspezifischen dynamischen Filtern zu generieren, die die Aktualisierung der Merkmale des aktuellen Bildes flexibler und effektiver gestalten. Umfassende Experimente an vier Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Tief verflochtenes zweistromiges Encoder-Modell für die Bezugsvideosegmentierung | Paper | HyperAI