vor 15 Tagen

ViSTA: Vision und Szenentext-Aggregation für multimodale Abfrage

Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang

Details der Forschungsarbeit anzeigen

ViSTA: Vision und Szenentext-Aggregation für multimodale Abfrage

Abstract

Die visuelle Erscheinung gilt als der wichtigste Hinweis zur Interpretation von Bildern im Kontext von Cross-Modal-Abfrageverfahren, während die in Bildern auftretenden Szenentexte gelegentlich wertvolle Informationen zur Verständnis der visuellen Semantik liefern können. Die meisten bestehenden Ansätze zur Cross-Modal-Abfrage ignorieren die Nutzung von Szenentextinformationen, und deren direkte Integration kann in Szenen ohne Text zu einer Leistungseinbuße führen. Um dieses Problem anzugehen, schlagen wir eine vollständig aus Transformers bestehende Architektur vor, die diese unterschiedlichen Szenarien in einem einzigen Rahmenwerk zur Aggregation von Visueller Information und Szenentext (ViSTA – Vision and Scene Text Aggregation) vereint. Konkret nutzt ViSTA Transformer-Blöcke, um Bildpatches direkt zu kodieren und Szenentext-Embeddings zu integrieren, um eine aggregierte visuelle Darstellung für die Cross-Modal-Abfrage zu lernen. Um das Problem des fehlenden Modalitätsinputs bei Szenentext zu bewältigen, stellen wir einen neuartigen Ansatz basierend auf einem Fusion-Token vor, der nur über diesen Token notwendige Szenentextinformationen austauscht und sich auf die wichtigsten Merkmale jeder Modalität konzentriert. Um die visuelle Modalität weiter zu stärken, entwickeln wir zwei kontrastive Lernverlustfunktionen, um sowohl Bild-Text-Paare als auch Fusion-Text-Paare in einen gemeinsamen Cross-Modal-Raum zu projizieren. Im Vergleich zu bestehenden Methoden ermöglicht ViSTA die Aggregation relevanter Szenentext-Semantik mit der visuellen Erscheinung und verbessert somit die Ergebnisse sowohl in Szenen ohne als auch mit Szenentext. Experimentelle Ergebnisse zeigen, dass ViSTA andere Ansätze bei der Szenentext-orientierten Abfrageumgebung mindestens um 8,4 % im Recall@1 übertrifft. Im Vergleich zu aktuellen state-of-the-art-Methoden für Szenen ohne Text erreicht ViSTA eine höhere Genauigkeit auf den Datensätzen Flicker30K und MSCOCO und läuft dabei während der Inferenzphase mindestens dreimal schneller – was die Wirksamkeit des vorgeschlagenen Ansatzes belegt.