HyperAIHyperAI
vor 2 Monaten

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern

Sanghyun Jo; Soohyun Ryu; Sungyub Kim; Eunho Yang; Kyungsu Kim
TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern
Abstract

Wir identifizieren einen kritischen Bias in aktuellen CLIP-basierten Modellen, den wir als Single-Tag-Bias bezeichnen. Dieser Bias äußert sich durch eine überproportionale Fokussierung auf ein einzelnes Tag (Wort), während andere relevante Tags vernachlässigt werden. Dies geht auf die Text-Vektoren von CLIP zurück, die in Beziehungen zwischen Bildern und Texten ein bestimmtes Tag bevorzugen. Bei der Zerlegung von Text in einzelne Tags neigt nur eines dieser Tags dazu, eine hohe Relevanz für CLIPs Bild-Vektor zu haben, was zu einem verzerrten Tag-Relevanzzusammenhang führt. In diesem Artikel stellen wir einen neuen zweistufigen Feinabstimmungsansatz vor, den Text-Tag-Selbstdestillationsverfahren (TTD). TTD extrahiert zunächst bildrelevante Tags aus dem Text basierend auf ihrer Ähnlichkeit zu den nächstgelegenen Pixeln und verwendet dann eine Selbstdestillationsstrategie, um kombinierte Masken mit der textbasierten Maske auszurichten. Dieser Ansatz gewährleistet eine unverzerrte Ausrichtung von Bildern und Texten in CLIP-basierten Modellen unter Verwendung ausschließlich von Bild-Text-Paaren ohne zusätzliche Aufsicht. Unsere Technik zeigt modellunabhängige Verbesserungen bei Mehrfachtag-Klassifikations- und Segmentierungsaufgaben und übertrifft konkurrierende Methoden, die externe Ressourcen benötigen. Der Code ist unter https://github.com/shjo-april/TTD verfügbar.

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern | Neueste Forschungsarbeiten | HyperAI