CCMB: Ein großskaliger chinesischer Cross-Modality Benchmark

Die Vision-Sprache-Vortrainierung (VLP) auf großskaligen Datensätzen hat hervorragende Leistung bei verschiedenen Nachfolgeaufgaben gezeigt. Im Gegensatz zu einer Vielzahl verfügbaren Benchmarks mit englischen Korpora bleiben große, hochwertige Vortrainings- und Nachfolgedatensätze mit chinesischen Korpora bisher weitgehend unerforscht. In dieser Arbeit stellen wir eine großskalige, hochwertige chinesische Cross-Modal-Benchmark namens CCMB für die Forschungsgemeinschaft vor, die derzeit den größten öffentlichen Vortrainingsdatensatz Zero sowie fünf menschlich annotierte Feinjustierungsdatensätze für Nachfolgeaufgaben enthält. Zero umfasst 250 Millionen Bilder mit jeweils 750 Millionen Textbeschreibungen, wobei zwei der fünf Feinjustierungsdatensätze aktuell die größten für chinesische Cross-Modal-Nachfolgeaufgaben darstellen. Neben der CCMB entwickeln wir auch einen VLP-Framework namens R2D2, das eine Vor-Ranking + Ranking-Strategie anwendet, um leistungsfähige Vision-Sprache-Vertretungen zu lernen, sowie eine zweifache Distanzierungsmethode (d.h. zielgesteuerte Distanzierung und featuregesteuerte Distanzierung), um die Lernfähigkeit weiter zu verbessern. Mit dem Datensatz Zero und dem R2D2-VLP-Framework erreichen wir state-of-the-art-Leistungen auf zwölf Nachfolgedatensätzen aus fünf breiten Aufgabengruppen, darunter Bild-Text-Recherche, Bild-Text-Übereinstimmung, Bildbeschreibung, Text-zu-Bild-Generierung und zero-shot-Bildklassifikation. Die Datensätze, Modelle und Codes sind unter https://github.com/yuxie11/R2D2 verfügbar.