BiCro: Korrektur rauschiger Korrespondenzen für multimodale Daten durch bidirektionale multimodale Ähnlichkeitskonsistenz

Als eine der grundlegendsten Techniken im multimodalen Lernen zielt das cross-modale Matching darauf ab, verschiedene sensorische Modalitäten in einen gemeinsamen Merkmalsraum zu projizieren. Um dies zu erreichen, werden für die Modelltrainierung umfangreiche und korrekt ausgerichtete Datensätze benötigt. Allerdings sind multimodale Datensätze im Vergleich zu unimodalen Datensätzen erheblich schwieriger präzise zu sammeln und zu annotieren. Als Alternative werden in diesem Bereich häufig co-occurred Datensätze (z.B., Bild-Text-Paare), die aus dem Internet gesammelt wurden, genutzt. Leider enthält ein kostengünstig gesammelter Datensatz unvermeidlich viele fehlerhafte Paare, die sich negativ auf die Leistung des Modells auswirken können. Um dieses Problem anzugehen, schlagen wir einen allgemeinen Rahmen vor, den wir BiCro (Bidirectional Cross-modal similarity consistency) nennen. BiCro kann einfach in bestehende cross-modale Matching-Modelle integriert werden und ihre Robustheit gegenüber verrauschten Daten verbessern. Insbesondere strebt BiCro an, weiche Labels für verrauschte Datensätze zu schätzen, um ihren tatsächlichen Korrespondenzgrad widerzuspiegeln. Die grundlegende Idee von BiCro basiert darauf – am Beispiel von Bild-Text-Matching – dass ähnliche Bilder ähnliche textuelle Beschreibungen haben sollten und umgekehrt. Dann kann die Konsistenz dieser beiden Ähnlichkeiten als geschätzte weiche Labels zur Trainierung des Matching-Modells umformuliert werden. Experimente mit drei gängigen cross-modalen Matching-Datensätzen zeigen, dass unsere Methode die Rauschrobustheit verschiedener Matching-Modelle erheblich verbessert und den aktuellen Stand der Forschung deutlich übertrifft.