HyperAIHyperAI

Command Palette

Search for a command to run...

ViSTA: Vision und Szenentext-Aggregation für multimodale Abfrage

Zusammenfassung

Die visuelle Erscheinung gilt als der wichtigste Hinweis zur Interpretation von Bildern im Kontext von Cross-Modal-Abfrageverfahren, während die in Bildern auftretenden Szenentexte gelegentlich wertvolle Informationen zur Verständnis der visuellen Semantik liefern können. Die meisten bestehenden Ansätze zur Cross-Modal-Abfrage ignorieren die Nutzung von Szenentextinformationen, und deren direkte Integration kann in Szenen ohne Text zu einer Leistungseinbuße führen. Um dieses Problem anzugehen, schlagen wir eine vollständig aus Transformers bestehende Architektur vor, die diese unterschiedlichen Szenarien in einem einzigen Rahmenwerk zur Aggregation von Visueller Information und Szenentext (ViSTA – Vision and Scene Text Aggregation) vereint. Konkret nutzt ViSTA Transformer-Blöcke, um Bildpatches direkt zu kodieren und Szenentext-Embeddings zu integrieren, um eine aggregierte visuelle Darstellung für die Cross-Modal-Abfrage zu lernen. Um das Problem des fehlenden Modalitätsinputs bei Szenentext zu bewältigen, stellen wir einen neuartigen Ansatz basierend auf einem Fusion-Token vor, der nur über diesen Token notwendige Szenentextinformationen austauscht und sich auf die wichtigsten Merkmale jeder Modalität konzentriert. Um die visuelle Modalität weiter zu stärken, entwickeln wir zwei kontrastive Lernverlustfunktionen, um sowohl Bild-Text-Paare als auch Fusion-Text-Paare in einen gemeinsamen Cross-Modal-Raum zu projizieren. Im Vergleich zu bestehenden Methoden ermöglicht ViSTA die Aggregation relevanter Szenentext-Semantik mit der visuellen Erscheinung und verbessert somit die Ergebnisse sowohl in Szenen ohne als auch mit Szenentext. Experimentelle Ergebnisse zeigen, dass ViSTA andere Ansätze bei der Szenentext-orientierten Abfrageumgebung mindestens um 8,4 % im Recall@1 übertrifft. Im Vergleich zu aktuellen state-of-the-art-Methoden für Szenen ohne Text erreicht ViSTA eine höhere Genauigkeit auf den Datensätzen Flicker30K und MSCOCO und läuft dabei während der Inferenzphase mindestens dreimal schneller – was die Wirksamkeit des vorgeschlagenen Ansatzes belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp