HyperAIHyperAI

Command Palette

Search for a command to run...

Wukong: Ein 100-Millionen- großes chinesisches cross-modales Vortrainierungsbenchmark

Zusammenfassung

Vision-Language-Pre-Training (VLP)-Modelle haben bei einer Vielzahl von Downstream-Aufgaben bemerkenswerte Leistungen erzielt. Ihr Erfolg beruht stark auf der Größe der vortrainierten, multimodalen Datensätze. Doch der Mangel an großskaligen Datensätzen und Benchmarks für die chinesische Sprache behindert die Entwicklung chinesischer VLP-Modelle sowie weiterreichende multilinguale Anwendungen. In dieser Arbeit stellen wir einen großskaligen chinesischen multimodalen Datensatz namens Wukong vor, der 100 Millionen chinesische Bild-Text-Paare umfasst, die aus dem Web gesammelt wurden. Wukong soll verschiedene Methoden des multimodalen Pre-Trainings benchmarken und somit die Forschung und Entwicklung der VLP-Community fördern. Zudem veröffentlichen wir eine Reihe von Modellen, die mit verschiedenen Bild-Encodern (ViT-B/ViT-L/SwinT) vortrainiert wurden, sowie die Anwendung fortschrittlicher Pre-Training-Techniken in der VLP, wie z. B. locked-image text tuning, token-weise Ähnlichkeit im contrastiven Lernen und reduzierte Token-Interaktion. Umfassende Experimente und ein Benchmark verschiedener Downstream-Aufgaben werden ebenfalls bereitgestellt, darunter ein neu erstellter, größter menschlich verifizierter Testdatensatz für Bild-Text-Abfragen. Die Experimente zeigen, dass Wukong als vielversprechender chinesischer Pre-Training-Datensatz und Benchmark für verschiedene multimodale Lernmethoden dienen kann. Für die Zero-Shot-Bildklassifikation auf 10 Datensätzen erreicht WukongViTLWukong_{ViT-L}WukongViTL eine durchschnittliche Genauigkeit von 73,03 %. Bei der Bild-Text-Abfrage erzielt das Modell eine mittlere Recall-Rate von 71,6 % auf AIC-ICC – das entspricht einer Steigerung um 12,9 % gegenüber WenLan 2.0. Zudem werden unsere Wukong-Modelle auf verschiedenen Downstream-Aufgaben mit anderen Varianten an mehreren Datensätzen wie z. B. Flickr8K-CN, Flickr-30K-CN, COCO-CN evaluiert. Weitere Informationen finden Sie unter: https://wukong-dataset.github.io/wukong-dataset/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp