vor 17 Tagen

Wukong: Ein 100-Millionen- großes chinesisches cross-modales Vortrainierungsbenchmark

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu

Details der Forschungsarbeit anzeigen

Wukong: Ein 100-Millionen- großes chinesisches cross-modales Vortrainierungsbenchmark

Abstract

Vision-Language-Pre-Training (VLP)-Modelle haben bei einer Vielzahl von Downstream-Aufgaben bemerkenswerte Leistungen erzielt. Ihr Erfolg beruht stark auf der Größe der vortrainierten, multimodalen Datensätze. Doch der Mangel an großskaligen Datensätzen und Benchmarks für die chinesische Sprache behindert die Entwicklung chinesischer VLP-Modelle sowie weiterreichende multilinguale Anwendungen. In dieser Arbeit stellen wir einen großskaligen chinesischen multimodalen Datensatz namens Wukong vor, der 100 Millionen chinesische Bild-Text-Paare umfasst, die aus dem Web gesammelt wurden. Wukong soll verschiedene Methoden des multimodalen Pre-Trainings benchmarken und somit die Forschung und Entwicklung der VLP-Community fördern. Zudem veröffentlichen wir eine Reihe von Modellen, die mit verschiedenen Bild-Encodern (ViT-B/ViT-L/SwinT) vortrainiert wurden, sowie die Anwendung fortschrittlicher Pre-Training-Techniken in der VLP, wie z. B. locked-image text tuning, token-weise Ähnlichkeit im contrastiven Lernen und reduzierte Token-Interaktion. Umfassende Experimente und ein Benchmark verschiedener Downstream-Aufgaben werden ebenfalls bereitgestellt, darunter ein neu erstellter, größter menschlich verifizierter Testdatensatz für Bild-Text-Abfragen. Die Experimente zeigen, dass Wukong als vielversprechender chinesischer Pre-Training-Datensatz und Benchmark für verschiedene multimodale Lernmethoden dienen kann. Für die Zero-Shot-Bildklassifikation auf 10 Datensätzen erreicht $Wukong_{ViT-L}$ eine durchschnittliche Genauigkeit von 73,03 %. Bei der Bild-Text-Abfrage erzielt das Modell eine mittlere Recall-Rate von 71,6 % auf AIC-ICC – das entspricht einer Steigerung um 12,9 % gegenüber WenLan 2.0. Zudem werden unsere Wukong-Modelle auf verschiedenen Downstream-Aufgaben mit anderen Varianten an mehreren Datensätzen wie z. B. Flickr8K-CN, Flickr-30K-CN, COCO-CN evaluiert. Weitere Informationen finden Sie unter: https://wukong-dataset.github.io/wukong-dataset/.