HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale Selbst-Aufmerksamkeitsnetzwerk für referenzbasierte Bildsegmentierung

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang

Zusammenfassung

Wir betrachten das Problem der referenzbasierten Bildsegmentierung. Gegeben ein Eingangsbild und eine natürlichsprachliche Ausdrucksweise, besteht das Ziel darin, das von der Sprachaussage bezeichnete Objekt im Bild zu segmentieren. Bestehende Arbeiten in diesem Bereich behandeln die Sprachaussage und das Eingangsbild getrennt in ihren Darstellungen. Sie erfassen nicht ausreichend die langen Korrelationen zwischen diesen beiden Modalitäten. In dieser Arbeit schlagen wir ein Modul für kreuzmodale Selbst-Aufmerksamkeit (Cross-Modal Self-Attention, CMSA) vor, das die langen Abhängigkeiten zwischen sprachlichen und visuellen Merkmalen effektiv erfasst. Unser Modell kann sich an informative Wörter in der referierenden Aussage und wichtige Bereiche im Eingangsbild anpassen. Zudem schlagen wir ein gattergesteuertes mehrstufiges Fusionsmodul vor, um selektiv selbstaufmerksame kreuzmodale Merkmale, die verschiedenen Ebenen des Bildes entsprechen, zu integrieren. Dieses Modul steuert den Informationsfluss der Merkmale auf verschiedenen Ebenen. Wir validieren den vorgeschlagenen Ansatz anhand von vier Evaluationsdatensätzen. Unser vorgeschlagener Ansatz übertrifft konsistent bestehende state-of-the-art-Methoden.请注意,这里的“state-of-the-art”是一个在科技文献中常用的术语,通常直接保留为英语。如果需要完全德语化的表达,可以将其翻译为“Stand der Technik”。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kreuzmodale Selbst-Aufmerksamkeitsnetzwerk für referenzbasierte Bildsegmentierung | Paper | HyperAI