HyperAIHyperAI
vor 3 Monaten

Wenn Text und Bilder nicht zusammenpassen: Biaskorrektur von Sprache-Bild-Ähnlichkeitswerten für die Anomalieerkennung

Adam Goodge, Bryan Hooi, Wee Siong Ng
Wenn Text und Bilder nicht zusammenpassen: Biaskorrektur von Sprache-Bild-Ähnlichkeitswerten für die Anomalieerkennung
Abstract

Contrastive Language-Image Pre-training (CLIP) erreicht bemerkenswerte Leistung in verschiedenen Downstream-Aufgaben durch die Ausrichtung von Bild- und Texteingabeneinbettungen und zeigt großes Potenzial für die Anomalieerkennung. Unseren empirischen Experimenten zufolge klumpen die Texteingabeneinbettungen jedoch unerwartet stark zusammen und liegen weit entfernt von den Bildeinbettungen – im Widerspruch zum kontrastiven Trainingsziel des Modells, Bild-Text-Paare auszurichten. Wir zeigen, dass dieses Phänomen eine „Similarity-Bias“ verursacht, bei der falsch-negative und falsch-positive Fehler aufgrund einer Verzerrung der Ähnlichkeiten zwischen Bildern und den normalen Label-Texteinbettungen auftreten. Um diesen Bias zu beheben, schlagen wir eine neuartige Methode namens BLISS vor, die diesen Similarity-Bias direkt durch die Verwendung einer zusätzlichen, externen Menge von Texteingaben berücksichtigt. BLISS ist einfach, erfordert keine starken induktiven Voraussetzungen über anomales Verhalten und keinen aufwendigen Trainingsprozess, und übertrifft Baseline-Methoden erheblich auf Benchmark-Bilddatensätzen – selbst dann, wenn der Zugriff auf normale Daten äußerst begrenzt ist.