HyperAIHyperAI

Command Palette

Search for a command to run...

BiCro: Korrektur rauschiger Korrespondenzen für multimodale Daten durch bidirektionale multimodale Ähnlichkeitskonsistenz

Yang Shuo ; Xu Zhaopan ; Wang Kai ; You Yang ; Yao Hongxun ; Liu Tongliang ; Xu Min

Zusammenfassung

Als eine der grundlegendsten Techniken im multimodalen Lernen zielt das cross-modale Matching darauf ab, verschiedene sensorische Modalitäten in einen gemeinsamen Merkmalsraum zu projizieren. Um dies zu erreichen, werden für die Modelltrainierung umfangreiche und korrekt ausgerichtete Datensätze benötigt. Allerdings sind multimodale Datensätze im Vergleich zu unimodalen Datensätzen erheblich schwieriger präzise zu sammeln und zu annotieren. Als Alternative werden in diesem Bereich häufig co-occurred Datensätze (z.B., Bild-Text-Paare), die aus dem Internet gesammelt wurden, genutzt. Leider enthält ein kostengünstig gesammelter Datensatz unvermeidlich viele fehlerhafte Paare, die sich negativ auf die Leistung des Modells auswirken können. Um dieses Problem anzugehen, schlagen wir einen allgemeinen Rahmen vor, den wir BiCro (Bidirectional Cross-modal similarity consistency) nennen. BiCro kann einfach in bestehende cross-modale Matching-Modelle integriert werden und ihre Robustheit gegenüber verrauschten Daten verbessern. Insbesondere strebt BiCro an, weiche Labels für verrauschte Datensätze zu schätzen, um ihren tatsächlichen Korrespondenzgrad widerzuspiegeln. Die grundlegende Idee von BiCro basiert darauf – am Beispiel von Bild-Text-Matching – dass ähnliche Bilder ähnliche textuelle Beschreibungen haben sollten und umgekehrt. Dann kann die Konsistenz dieser beiden Ähnlichkeiten als geschätzte weiche Labels zur Trainierung des Matching-Modells umformuliert werden. Experimente mit drei gängigen cross-modalen Matching-Datensätzen zeigen, dass unsere Methode die Rauschrobustheit verschiedener Matching-Modelle erheblich verbessert und den aktuellen Stand der Forschung deutlich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp