Tiefes evidenzbasiertes Lernen mit verrauschter Korrespondenz für multimodale Suche
Die Kreuzmodale Retrieval-Aufgabe hat in der multimodalen Forschungsgemeinschaft ein zentrales Interesse geweckt. In jüngster Zeit wurde zur Verringerung der hohen Kosten der Datensammlung versucht, ko-occurring Paare (z. B. Bilder und Texte) aus dem Internet als großskalige Kreuzmodaldatensätze zu gewinnen, beispielsweise Conceptual Captions. Allerdings führt dieser Ansatz zwangsläufig zu Rauschen (d. h. inkorrekten Paarungen) in den Trainingsdaten, das als „noisy correspondence“ bezeichnet wird. Unbestritten beeinträchtigt solches Rauschen die Zuverlässigkeit und Genauigkeit der Supervisionsinformation und verschlechtert die Leistung signifikant. Darüber hinaus konzentrieren sich die meisten bestehenden Methoden auf die Behandlung von „hard negatives“, was die Unzuverlässigkeit des Rauschens weiter verstärkt. Um diese Probleme zu lösen, schlagen wir einen verallgemeinerten Deep Evidential Cross-modal Learning-Framework (DECL) vor, der ein neuartiges Kreuzmodales Evidenzlernparadigma (CEL) und eine robuste dynamische Hinge-Loss-Funktion (RDH) mit positivem und negativem Lernen integriert. CEL kann die durch Rauschen verursachte Unsicherheit erfassen und lernen, wodurch die Robustheit und Zuverlässigkeit des Kreuzmodalen Retrieval verbessert wird. Konkret wird zunächst die bidirektionale Evidenz auf Basis der Kreuzmodalsimilarität modelliert und in eine Dirichlet-Verteilung parametrisiert. Dies ermöglicht nicht nur eine präzise Schätzung der Unsicherheit, sondern verleiht zudem Resilienz gegenüber Störungen durch inkorrekte Korrespondenzen. Um das Problem der Verstärkung von Rauschen zu adressieren, erhöht RDH die Schwierigkeit der ausgewählten negativen Beispiele kontinuierlich und glatt, wodurch eine höhere Robustheit gegenüber starkem Rauschen erreicht wird. Um die Wirksamkeit und Effizienz des vorgeschlagenen Ansatzes zu überprüfen, wurden umfangreiche Experimente auf drei Standarddatensätzen für Bild-Text-Abfragen durchgeführt: Flickr30K, MS-COCO und Conceptual Captions. Der Quellcode ist unter folgender URL verfügbar: https://github.com/QinYang79/DECL.