Chinese CLIP: Kontrastive visuell-sprachliche Vortrainierung im Chinesischen

Der enorme Erfolg von CLIP (Radford et al., 2021) hat die Forschung und Anwendung der kontrastiven Lernmethoden für die Vision-Sprache-Vortrainierung maßgeblich vorangetrieben. In dieser Arbeit erstellen wir einen großskaligen Datensatz aus Bild-Text-Paaren auf Chinesisch, wobei die überwiegende Mehrheit der Daten aus öffentlich verfügbaren Datensätzen stammt, und trainieren chinesische CLIP-Modelle auf dieser neuen Datenbasis vor. Wir entwickeln fünf chinesische CLIP-Modelle unterschiedlicher Größe, die zwischen 77 und 958 Millionen Parametern variieren. Darüber hinaus schlagen wir eine zweistufige Vortrainierungsstrategie vor, bei der das Modell zunächst mit fixiertem Bild-Encoder trainiert wird und anschließend mit allen Parametern optimiert wird, um eine verbesserte Modellleistung zu erzielen. Unsere umfassenden Experimente zeigen, dass das chinesische CLIP in den Szenarien des Zero-Shot-Lernens und des Fine-Tunings die derzeit beste Leistung auf den Datensätzen MUGE, Flickr30K-CN und COCO-CN erzielt und zudem konkurrenzfähige Ergebnisse bei der Zero-Shot-Bildklassifikation auf der ELEVATER-Benchmark-Evaluation (Li et al., 2022) erzielt. Die Quellcodes, Modelle und Demonstrationen wurden unter https://github.com/OFA-Sys/Chinese-CLIP veröffentlicht.