HyperAIHyperAI

Command Palette

Search for a command to run...

Chinese CLIP: Kontrastive visuell-sprachliche Vortrainierung im Chinesischen

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

Zusammenfassung

Der enorme Erfolg von CLIP (Radford et al., 2021) hat die Forschung und Anwendung der kontrastiven Lernmethoden für die Vision-Sprache-Vortrainierung maßgeblich vorangetrieben. In dieser Arbeit erstellen wir einen großskaligen Datensatz aus Bild-Text-Paaren auf Chinesisch, wobei die überwiegende Mehrheit der Daten aus öffentlich verfügbaren Datensätzen stammt, und trainieren chinesische CLIP-Modelle auf dieser neuen Datenbasis vor. Wir entwickeln fünf chinesische CLIP-Modelle unterschiedlicher Größe, die zwischen 77 und 958 Millionen Parametern variieren. Darüber hinaus schlagen wir eine zweistufige Vortrainierungsstrategie vor, bei der das Modell zunächst mit fixiertem Bild-Encoder trainiert wird und anschließend mit allen Parametern optimiert wird, um eine verbesserte Modellleistung zu erzielen. Unsere umfassenden Experimente zeigen, dass das chinesische CLIP in den Szenarien des Zero-Shot-Lernens und des Fine-Tunings die derzeit beste Leistung auf den Datensätzen MUGE, Flickr30K-CN und COCO-CN erzielt und zudem konkurrenzfähige Ergebnisse bei der Zero-Shot-Bildklassifikation auf der ELEVATER-Benchmark-Evaluation (Li et al., 2022) erzielt. Die Quellcodes, Modelle und Demonstrationen wurden unter https://github.com/OFA-Sys/Chinese-CLIP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp