Command Palette
Search for a command to run...
Chinese CLIP: Kontrastive visuell-sprachliche Vortrainierung im Chinesischen
Chinese CLIP: Kontrastive visuell-sprachliche Vortrainierung im Chinesischen
An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou
Zusammenfassung
Der enorme Erfolg von CLIP (Radford et al., 2021) hat die Forschung und Anwendung der kontrastiven Lernmethoden für die Vision-Sprache-Vortrainierung maßgeblich vorangetrieben. In dieser Arbeit erstellen wir einen großskaligen Datensatz aus Bild-Text-Paaren auf Chinesisch, wobei die überwiegende Mehrheit der Daten aus öffentlich verfügbaren Datensätzen stammt, und trainieren chinesische CLIP-Modelle auf dieser neuen Datenbasis vor. Wir entwickeln fünf chinesische CLIP-Modelle unterschiedlicher Größe, die zwischen 77 und 958 Millionen Parametern variieren. Darüber hinaus schlagen wir eine zweistufige Vortrainierungsstrategie vor, bei der das Modell zunächst mit fixiertem Bild-Encoder trainiert wird und anschließend mit allen Parametern optimiert wird, um eine verbesserte Modellleistung zu erzielen. Unsere umfassenden Experimente zeigen, dass das chinesische CLIP in den Szenarien des Zero-Shot-Lernens und des Fine-Tunings die derzeit beste Leistung auf den Datensätzen MUGE, Flickr30K-CN und COCO-CN erzielt und zudem konkurrenzfähige Ergebnisse bei der Zero-Shot-Bildklassifikation auf der ELEVATER-Benchmark-Evaluation (Li et al., 2022) erzielt. Die Quellcodes, Modelle und Demonstrationen wurden unter https://github.com/OFA-Sys/Chinese-CLIP veröffentlicht.