CCMB : Un référentiel grandeur nature pour les modalités croisées en chinois

La pré-formation vision-langage (VLP) sur de grands jeux de données a démontré des performances de pointe sur diverses tâches ultérieures. En contraste avec l'abondance de benchmarks disponibles basés sur des corpus en anglais, les grands jeux de données de pré-formation et les jeux de données de tâches ultérieures basés sur des corpus chinois restent largement sous-exploités. Dans ce travail, nous proposons une grande base de données chinoise de référence multimodale, nommée CCMB, destinée à la communauté de recherche. Cette base comprend actuellement le plus grand jeu de données public de pré-formation, Zero, ainsi que cinq jeux de données fine-tunés annotés par des humains pour des tâches ultérieures. Zero contient 250 millions d'images associées à 750 millions de descriptions textuelles, et deux des cinq jeux de données fine-tunés sont également actuellement les plus volumineux pour les tâches chinoises multimodales ultérieures. Parallèlement à la CCMB, nous développons également un cadre de VLP nommé R2D2, qui utilise une stratégie pré-classement + classement afin d'apprendre des représentations vision-langage puissantes, ainsi qu'une méthode de distillation bidirectionnelle (c’est-à-dire distillation guidée par la cible et distillation guidée par les caractéristiques) pour renforcer davantage la capacité d'apprentissage. Grâce au jeu de données Zero et au cadre R2D2, nous atteignons des performances de pointe sur douze jeux de données ultérieurs appartenant à cinq grandes catégories de tâches : recherche image-texte, correspondance image-texte, génération de légendes d’images, génération image à partir de texte, et classification d’images à zéro exemple. Les jeux de données, modèles et codes sont disponibles à l’adresse suivante : https://github.com/yuxie11/R2D2