HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Text und Bilder nicht zusammenpassen: Biaskorrektur von Sprache-Bild-Ähnlichkeitswerten für die Anomalieerkennung

Adam Goodge Bryan Hooi Wee Siong Ng

Zusammenfassung

Contrastive Language-Image Pre-training (CLIP) erreicht bemerkenswerte Leistung in verschiedenen Downstream-Aufgaben durch die Ausrichtung von Bild- und Texteingabeneinbettungen und zeigt großes Potenzial für die Anomalieerkennung. Unseren empirischen Experimenten zufolge klumpen die Texteingabeneinbettungen jedoch unerwartet stark zusammen und liegen weit entfernt von den Bildeinbettungen – im Widerspruch zum kontrastiven Trainingsziel des Modells, Bild-Text-Paare auszurichten. Wir zeigen, dass dieses Phänomen eine „Similarity-Bias“ verursacht, bei der falsch-negative und falsch-positive Fehler aufgrund einer Verzerrung der Ähnlichkeiten zwischen Bildern und den normalen Label-Texteinbettungen auftreten. Um diesen Bias zu beheben, schlagen wir eine neuartige Methode namens BLISS vor, die diesen Similarity-Bias direkt durch die Verwendung einer zusätzlichen, externen Menge von Texteingaben berücksichtigt. BLISS ist einfach, erfordert keine starken induktiven Voraussetzungen über anomales Verhalten und keinen aufwendigen Trainingsprozess, und übertrifft Baseline-Methoden erheblich auf Benchmark-Bilddatensätzen – selbst dann, wenn der Zugriff auf normale Daten äußerst begrenzt ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wenn Text und Bilder nicht zusammenpassen: Biaskorrektur von Sprache-Bild-Ähnlichkeitswerten für die Anomalieerkennung | Paper | HyperAI