Lernen aus verrauschter Korrespondenz mit Tri-Partition für die cross-modale Zuordnung
Aufgrund hoher Labelkosten ist es unvermeidlich, einen gewissen Anteil an fehlerhaften Korrespondenzen in visuell-Text-Datensätzen einzuführen, was zu einer schlechten Robustheit von Modellen bei der Kreuzmodalen Matching-Aufgabe führt. Obwohl neuere Methoden die Datensätze in saubere und fehlerhafte Paar-Untermengen unterteilen und hierbei vielversprechende Ergebnisse erzielen, leiden sie weiterhin unter einer Überanpassung tiefer neuronalen Netze an den fehlerhaften Korrespondenzen. Insbesondere werden ähnliche positive Paare mit teilweise relevanter semantischer Korrespondenz oft irrtümlich in die fehlerhafte Paar-Untermenge eingeteilt, wenn keine sorgfältige Auswahl erfolgt, was nachteilige Auswirkungen auf das robuste Lernen hat. Gleichzeitig führen ähnliche negative Paare mit teilweise relevanter semantischer Korrespondenz zu mehrdeutigen Abstandsbeziehungen im gemeinsamen Raum, was die Stabilität der Leistung ebenfalls beeinträchtigt. Um das Problem der groben Datensatzpartitionierung zu lösen, schlagen wir den Correspondence Tri-Partition Rectifier (CTPR) vor, der die Trainingsmenge basierend auf dem Memorisationseffekt neuronaler Netze und der Vorhersagungsinstabilität in drei Untermengen – saubere, schwierige und fehlerhafte Paare – unterteilt. Anschließend verfeinern wir die Korrespondenzlabels für jede Untermenge, um die tatsächliche semantische Korrespondenz zwischen visuellen und textuellen Paaren präzise zu erfassen. Die Differenz zwischen den korrigierten Labels von Anchor-Paaren und schwierigen Negativen wird als adaptiver Margin in einer verbesserten Triplet-Loss-Funktion verwendet, um robustes Training im Sinne eines Co-Teaching-Ansatzes zu ermöglichen. Um die Wirksamkeit und Robustheit unserer Methode zu überprüfen, führen wir Experimente mit Bild-Text- und Video-Text-Matching als zwei exemplarische Anwendungsfälle durch. Umfangreiche Experimente auf den Datensätzen Flickr30K, MS-COCO, MSR-VTT und LSMDC bestätigen, dass unsere Methode die visuell-textuellen Paare erfolgreich nach ihrer semantischen Korrespondenz partitioniert und die Leistung bei Training mit fehlerhaften Daten signifikant verbessert.