Kreuzmodale Selbst-Aufmerksamkeitsnetzwerk für referenzbasierte Bildsegmentierung

Wir betrachten das Problem der referenzbasierten Bildsegmentierung. Gegeben ein Eingangsbild und eine natürlichsprachliche Ausdrucksweise, besteht das Ziel darin, das von der Sprachaussage bezeichnete Objekt im Bild zu segmentieren. Bestehende Arbeiten in diesem Bereich behandeln die Sprachaussage und das Eingangsbild getrennt in ihren Darstellungen. Sie erfassen nicht ausreichend die langen Korrelationen zwischen diesen beiden Modalitäten. In dieser Arbeit schlagen wir ein Modul für kreuzmodale Selbst-Aufmerksamkeit (Cross-Modal Self-Attention, CMSA) vor, das die langen Abhängigkeiten zwischen sprachlichen und visuellen Merkmalen effektiv erfasst. Unser Modell kann sich an informative Wörter in der referierenden Aussage und wichtige Bereiche im Eingangsbild anpassen. Zudem schlagen wir ein gattergesteuertes mehrstufiges Fusionsmodul vor, um selektiv selbstaufmerksame kreuzmodale Merkmale, die verschiedenen Ebenen des Bildes entsprechen, zu integrieren. Dieses Modul steuert den Informationsfluss der Merkmale auf verschiedenen Ebenen. Wir validieren den vorgeschlagenen Ansatz anhand von vier Evaluationsdatensätzen. Unser vorgeschlagener Ansatz übertrifft konsistent bestehende state-of-the-art-Methoden.请注意,这里的“state-of-the-art”是一个在科技文献中常用的术语,通常直接保留为英语。如果需要完全德语化的表达,可以将其翻译为“Stand der Technik”。