HyperAIHyperAI

Command Palette

Search for a command to run...

Plug-and-Play-Regulatoren für die Bild-Text-Übereinstimmung

Haiwen Diao Ying Zhang Wei Liu Xiang Ruan Huchuan Lu

Zusammenfassung

Die Ausnutzung fein granularer Korrespondenzen und visuell-semantischer Ausrichtungen hat großes Potenzial für die Bild-Text-Zuordnung gezeigt. In der Regel verwenden neuere Ansätze zunächst eine cross-modale Aufmerksamkeits-Einheit, um latente Region-Wort-Interaktionen zu erfassen, und integrieren anschließend alle Ausrichtungen, um die endgültige Ähnlichkeit zu ermitteln. Allerdings setzen die meisten dieser Ansätze ein einziges Vorwärts-Assoziations- oder Aggregationsverfahren mit komplexen Architekturen oder zusätzlichen Informationen ein, wobei die Regulierungsfähigkeit durch Netzwerk-Rückkopplung vernachlässigt wird. In diesem Paper entwickeln wir zwei einfache, jedoch äußerst effektive Regulatoren, die die Nachrichtenausgabe effizient kodieren, um die cross-modalen Darstellungen automatisch kontextualisiert und aggregiert zu verarbeiten. Konkret schlagen wir vor: (i) einen rekurrenten Korrespondenz-Regulator (RCR), der die cross-modale Aufmerksamkeits-Einheit schrittweise mit adaptiven Aufmerksamkeitsfaktoren unterstützt, um flexiblere Korrespondenzen zu erfassen, sowie (ii) einen rekurrenten Aggregations-Regulator (RAR), der die Aggregationsgewichte wiederholt anpasst, um wichtige Ausrichtungen zunehmend zu betonen und weniger relevante zu dämpfen. Interessanterweise sind RCR und RAR plug-and-play: Beide können nahtlos in zahlreiche Frameworks basierend auf cross-modaler Interaktion integriert werden und bringen erhebliche Vorteile mit sich; ihre Zusammenarbeit führt zu weiteren Verbesserungen. Umfangreiche Experimente auf den Datensätzen MSCOCO und Flickr30K bestätigen, dass sie eine beeindruckende und konsistente Verbesserung bei R@1 auf mehreren Modellen erzielen, was die allgemeine Wirksamkeit und Generalisierungsfähigkeit der vorgeschlagenen Methoden unterstreicht. Der Quellcode und vortrainierte Modelle sind unter folgender URL verfügbar: https://github.com/Paranioar/RCAR.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp