vor 8 Monaten

Zusammenfassung

Wir identifizieren einen kritischen Bias in aktuellen CLIP-basierten Modellen, den wir als Single-Tag-Bias bezeichnen. Dieser Bias äußert sich durch eine überproportionale Fokussierung auf ein einzelnes Tag (Wort), während andere relevante Tags vernachlässigt werden. Dies geht auf die Text-Vektoren von CLIP zurück, die in Beziehungen zwischen Bildern und Texten ein bestimmtes Tag bevorzugen. Bei der Zerlegung von Text in einzelne Tags neigt nur eines dieser Tags dazu, eine hohe Relevanz für CLIPs Bild-Vektor zu haben, was zu einem verzerrten Tag-Relevanzzusammenhang führt. In diesem Artikel stellen wir einen neuen zweistufigen Feinabstimmungsansatz vor, den Text-Tag-Selbstdestillationsverfahren (TTD). TTD extrahiert zunächst bildrelevante Tags aus dem Text basierend auf ihrer Ähnlichkeit zu den nächstgelegenen Pixeln und verwendet dann eine Selbstdestillationsstrategie, um kombinierte Masken mit der textbasierten Maske auszurichten. Dieser Ansatz gewährleistet eine unverzerrte Ausrichtung von Bildern und Texten in CLIP-basierten Modellen unter Verwendung ausschließlich von Bild-Text-Paaren ohne zusätzliche Aufsicht. Unsere Technik zeigt modellunabhängige Verbesserungen bei Mehrfachtag-Klassifikations- und Segmentierungsaufgaben und übertrifft konkurrierende Methoden, die externe Ressourcen benötigen. Der Code ist unter https://github.com/shjo-april/TTD verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TTD: Text-Tag Self-Distillation zur Verbesserung der Bild-Text-Ausrichtung in CLIP, um das Bias einzelner Tags zu verringern

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters