HyperAIHyperAI
vor 11 Tagen

Referenzsegmentierung in Bildern und Videos mit einem multimodalen Selbst-Attention-Netzwerk

Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang, Yang Wang
Referenzsegmentierung in Bildern und Videos mit einem multimodalen Selbst-Attention-Netzwerk
Abstract

Wir betrachten das Problem der Referenzsegmentierung in Bildern und Videos unter Verwendung natürlicher Sprache. Gegeben ein Eingabebild (bzw. -video) und eine Referenzausdrucksformulierung soll die im Ausdruck genannte Entität im Bild oder Video segmentiert werden. In diesem Artikel stellen wir ein cross-modales Selbst-Attention (CMSA)-Modul vor, das feine Details einzelner Wörter sowie der Eingabebilder oder -videos nutzt, um effektiv langreichweitige Abhängigkeiten zwischen sprachlichen und visuellen Merkmalen zu erfassen. Unser Modell kann adaptiv auf informativ wirkende Wörter in der Referenzausdrucksformulierung und auf bedeutungsvolle Regionen im visuellen Eingabedatenstrom fokussieren. Darüber hinaus führen wir ein gatingsgesteuertes mehrstufiges Fusionsmodul (GMLF) ein, das selektiv selbst-attentive cross-modale Merkmale auf verschiedenen visuellen Hierarchieebenen integriert. Dieses Modul steuert die Merkmalsfusion von Informationsflüssen auf unterschiedlichen Ebenen mit hoch- und niederwertigen semantischen Informationen, die jeweils mit unterschiedlich aufmerksamen Wörtern assoziiert sind. Zusätzlich stellen wir ein cross-frame Selbst-Attention (CFSA)-Modul vor, das zeitliche Informationen in aufeinanderfolgenden Bildern effektiv integriert und unsere Methode somit auf die Referenzsegmentierung in Videos erweitert. Experimente auf vier Benchmark-Datensätzen für Referenzsegmentierung in Bildern sowie zwei Datensätzen für die Segmentierung von Akteuren und Aktionen in Videos zeigen konsistent, dass unser vorgeschlagenes Verfahren bestehende state-of-the-art-Methoden übertrifft.

Referenzsegmentierung in Bildern und Videos mit einem multimodalen Selbst-Attention-Netzwerk | Neueste Forschungsarbeiten | HyperAI