HyperAIHyperAI

Command Palette

Search for a command to run...

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

Wir identifizieren einen kritischen Bias in aktuellen CLIP-basierten Modellen, den wir als Single-Tag-Bias bezeichnen. Dieser Bias äußert sich durch eine überproportionale Fokussierung auf ein einzelnes Tag (Wort), während andere relevante Tags vernachlässigt werden. Dies geht auf die Text-Vektoren von CLIP zurück, die in Beziehungen zwischen Bildern und Texten ein bestimmtes Tag bevorzugen. Bei der Zerlegung von Text in einzelne Tags neigt nur eines dieser Tags dazu, eine hohe Relevanz für CLIPs Bild-Vektor zu haben, was zu einem verzerrten Tag-Relevanzzusammenhang führt. In diesem Artikel stellen wir einen neuen zweistufigen Feinabstimmungsansatz vor, den Text-Tag-Selbstdestillationsverfahren (TTD). TTD extrahiert zunächst bildrelevante Tags aus dem Text basierend auf ihrer Ähnlichkeit zu den nächstgelegenen Pixeln und verwendet dann eine Selbstdestillationsstrategie, um kombinierte Masken mit der textbasierten Maske auszurichten. Dieser Ansatz gewährleistet eine unverzerrte Ausrichtung von Bildern und Texten in CLIP-basierten Modellen unter Verwendung ausschließlich von Bild-Text-Paaren ohne zusätzliche Aufsicht. Unsere Technik zeigt modellunabhängige Verbesserungen bei Mehrfachtag-Klassifikations- und Segmentierungsaufgaben und übertrifft konkurrierende Methoden, die externe Ressourcen benötigen. Der Code ist unter https://github.com/shjo-april/TTD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern | Paper | HyperAI