HyperAIHyperAI
vor 18 Tagen

Bildsuche mit Textfeedback durch visiolinguistische Aufmerksamkeitslernung

{ Loris Bazzani, Shaogang Gong, Yanbei Chen}
Bildsuche mit Textfeedback durch visiolinguistische Aufmerksamkeitslernung
Abstract

Die Bildsuche mit Textrückmeldung zeigt vielversprechende Auswirkungen in verschiedenen realen Anwendungen, wie z. B. im E-Commerce und bei Internet-Suchmaschinen. Gegeben ein Referenzbild und textuelle Rückmeldungen des Nutzers soll ein Bild gefunden werden, das nicht nur dem Eingabebild ähnelt, sondern zudem bestimmte Aspekte entsprechend dem gegebenen Text verändert. Dies stellt eine herausfordernde Aufgabe dar, da sie eine synergistische Verarbeitung sowohl von Bild- als auch von Textinformationen erfordert. In dieser Arbeit lösen wir diese Aufgabe durch einen neuartigen Visiolinguistischen Aufmerksamkeitslernansatz (Visiolinguistic Attention Learning, VAL). Konkret schlagen wir einen zusammengesetzten Transformer vor, der nahtlos in einen CNN integriert werden kann, um visuelle Merkmale gezielt zu bewahren und zu transformieren, abhängig von der sprachlichen Semantik. Durch die Platzierung mehrerer solcher zusammengesetzter Transformers auf unterschiedlichen Tiefenstufen ermöglicht VAL die Erfassung von visiolinguistischen Informationen auf mehreren Granularitätsniveaus, wodurch eine ausdrucksstarke Darstellung entsteht, die eine effektive Bildsuche unterstützt. Wir führen eine umfassende Evaluation auf drei Datensätzen durch: Fashion200k, Shoes und FashionIQ. Umfangreiche Experimente zeigen, dass unser Modell alle bestehenden Ansätze auf allen Datensätzen übertrifft und eine konsistente Überlegenheit bei der Bewältigung verschiedener Textrückmeldungen – einschließlich attributartiger Beschreibungen und natürlicher Sprachbeschreibungen – demonstriert.