Integration von Sprachführung in die Bild-Text-Übereinstimmung zur Korrektur von Falsch-Negativen
Bild-Text-Zuordnung (Image-Text Matching, ITM) zielt darauf ab, die Korrespondenz zwischen Bildern und Sätzen herzustellen. ITM ist grundlegend für verschiedene Aufgaben im Bereich der visuellen und sprachlichen Verständnisfähigkeit. Allerdings bestehen bei der Gestaltung bestehender ITM-Benchmarks Einschränkungen. Die ITM-Benchmark-Daten werden während der Datensammlung als Paare aus Bildern und Sätzen erfasst. Daher werden nur diejenigen Paare, die während der Sammlung zusammengefasst wurden, als positiv annotiert. Alle übrigen Paare werden als negativ annotiert. Dabei bleiben viele tatsächliche Korrelationen in den als negativ annotierten Beispielen unberücksichtigt. Zum Beispiel entspricht ein Satz zu Sammlungszeitpunkt nur einem einzigen Bild. Nur dieses Bild wird für den Satz als positiv annotiert, während alle anderen Bilder als negativ markiert werden. Diese als negativ annotierten Bilder könnten jedoch tatsächlich zu dem Satz passende Inhalte enthalten. Solche falsch annotierten Beispiele werden als falsche Negative (false negatives) bezeichnet. Bestehende ITM-Modelle werden auf Basis von Annotationen trainiert, die solche Fehlmarkierungen enthalten, was während des Trainings zu Rauschen führen kann. In diesem Artikel stellen wir einen ITM-Framework vor, das Sprachführung (Language Guidance, LG) integriert, um falsche Negative zu korrigieren. Dabei wird ein vortrainiertes Sprachmodell in das ITM-Framework eingebunden, um falsche Negative zu identifizieren. Um diese falschen Negativen zu korrigieren, schlagen wir eine Sprachführungslösung (language guidance loss) vor, die adaptiv die Positionen falscher Negativer im visuell-semantischen Embedding-Raum korrigiert. Umfassende Experimente auf zwei ITM-Benchmarks zeigen, dass unsere Methode die Leistung bestehender ITM-Modelle verbessern kann. Um die Wirksamkeit der Korrektur falscher Negativer zu überprüfen, führen wir zusätzliche Experimente auf dem ECCV Caption-Datensatz durch. ECCV Caption ist ein verifizierter Datensatz, bei dem die falschen Negativen in den Annotationen bereits korrigiert wurden. Die experimentellen Ergebnisse belegen, dass unsere Methode mehr relevante falsche Negative wiederherstellen kann.