UGNCL: Unsicherheitsgeleitete Lernmethode für verrauschte Korrespondenzen zur effizienten Kreuzmodalen Zuordnung
Die Kreuzmodale Übereinstimmung hat in letzter Zeit erhebliche Beliebtheit erlangt, um die Abfrage über multimodale Daten zu erleichtern, wobei bestehende Ansätze stark von der impliziten Annahme abhängen, dass die Trainingsdatenpaare perfekt ausgerichtet sind. Diese ideale Annahme ist jedoch aufgrund unvermeidbarer Dateninkongruenzen – auch als „noisy correspondence“ bekannt – äußerst unrealistisch, da sie dazu führen kann, dass inkongruente Datenpaare fälschlicherweise als ähnlich angesehen werden, was wiederum zu einer Leistungseinbuße führt. Obwohl einige neuere Methoden versucht haben, dieses Problem anzugehen, stehen sie dennoch vor zwei herausfordernden Problemen: 1) einer unzuverlässigen Datenaufteilung, die zu ineffizientem Training führt, und 2) instabilen Vorhersagen, die zu Fehlschlägen bei der Übereinstimmung führen. Um diese Herausforderungen zu bewältigen, schlagen wir einen effizienten, Unsicherheitsgesteuerten Rahmen für die Lernung von Rauschkorrespondenzen (Uncertainty-Guided Noisy Correspondence Learning, UGNCL) vor, um eine rauschrobuste kreuzmodale Übereinstimmung zu erreichen. Konkret wird ein neuartiger Algorithmus zur Unsicherheitsgesteuerten Aufteilung (Uncertainty Guided Division, UGD) entwickelt, der die potenziellen Vorteile der abgeleiteten Unsicherheit nutzt, um die Daten in saubere, rauschbehaftete und schwierige Partitionen zu gliedern. Dadurch kann der Einfluss leicht identifizierbarer rauschbehafteter Paare effizient gemindert werden. Gleichzeitig wird eine effiziente Trusted Robust Loss (TRL) explizit entworfen, um die weichen Margin-Schwellen, kalibriert durch vertrauenswürdige, jedoch fehlerhafte weiche Korrespondenzlabels, für die Datenpaare in der schwierigen Partition über die Unsicherheit neu zu definieren. Dadurch wird der Einfluss zutreffender Paare erhöht und der von inkongruenten Paaren verringert, was die Robustheit gegenüber Rauschen weiter verbessert. Umfangreiche Experimente an drei öffentlichen Datensätzen belegen die Überlegenheit des vorgeschlagenen Rahmens und zeigen eine konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden. Der Quellcode ist unter https://github.com/qxzha/UGNCL verfügbar.