Plug-and-Play-Regulatoren für die Bild-Text-Übereinstimmung

Die Ausnutzung fein granularer Korrespondenzen und visuell-semantischer Ausrichtungen hat großes Potenzial für die Bild-Text-Zuordnung gezeigt. In der Regel verwenden neuere Ansätze zunächst eine cross-modale Aufmerksamkeits-Einheit, um latente Region-Wort-Interaktionen zu erfassen, und integrieren anschließend alle Ausrichtungen, um die endgültige Ähnlichkeit zu ermitteln. Allerdings setzen die meisten dieser Ansätze ein einziges Vorwärts-Assoziations- oder Aggregationsverfahren mit komplexen Architekturen oder zusätzlichen Informationen ein, wobei die Regulierungsfähigkeit durch Netzwerk-Rückkopplung vernachlässigt wird. In diesem Paper entwickeln wir zwei einfache, jedoch äußerst effektive Regulatoren, die die Nachrichtenausgabe effizient kodieren, um die cross-modalen Darstellungen automatisch kontextualisiert und aggregiert zu verarbeiten. Konkret schlagen wir vor: (i) einen rekurrenten Korrespondenz-Regulator (RCR), der die cross-modale Aufmerksamkeits-Einheit schrittweise mit adaptiven Aufmerksamkeitsfaktoren unterstützt, um flexiblere Korrespondenzen zu erfassen, sowie (ii) einen rekurrenten Aggregations-Regulator (RAR), der die Aggregationsgewichte wiederholt anpasst, um wichtige Ausrichtungen zunehmend zu betonen und weniger relevante zu dämpfen. Interessanterweise sind RCR und RAR plug-and-play: Beide können nahtlos in zahlreiche Frameworks basierend auf cross-modaler Interaktion integriert werden und bringen erhebliche Vorteile mit sich; ihre Zusammenarbeit führt zu weiteren Verbesserungen. Umfangreiche Experimente auf den Datensätzen MSCOCO und Flickr30K bestätigen, dass sie eine beeindruckende und konsistente Verbesserung bei R@1 auf mehreren Modellen erzielen, was die allgemeine Wirksamkeit und Generalisierungsfähigkeit der vorgeschlagenen Methoden unterstreicht. Der Quellcode und vortrainierte Modelle sind unter folgender URL verfügbar: https://github.com/Paranioar/RCAR.