HyperAIHyperAI
vor 11 Tagen

Yi: Offene Grundmodelle von 01.AI

01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
Yi: Offene Grundmodelle von 01.AI
Abstract

Wir stellen die Yi-Modellfamilie vor, eine Reihe von Sprach- und multimodalen Modellen, die starke multidimensionale Fähigkeiten aufweisen. Die Yi-Modellfamilie basiert auf vortrainierten Sprachmodellen mit jeweils 6B und 34B Parametern, die anschließend auf Chat-Modelle, Modelle mit einer Kontextlänge von bis zu 200.000 Token, tiefenvergrößerte Modelle sowie visuell-sprachliche Modelle erweitert wurden. Unsere Basismodelle erreichen eine herausragende Leistung auf einer Vielzahl von Benchmarks wie MMLU, während unsere fine-tunenden Chat-Modelle hohe Präferenzraten in führenden Evaluationsplattformen wie AlpacaEval und Chatbot Arena erzielen. Aufbauend auf unserer skalierbaren Supercomputing-Infrastruktur und der klassischen Transformer-Architektur attribuieren wir die Leistungsfähigkeit der Yi-Modelle primär der hohen Datenqualität, die durch unsere datenbasierten Ingenieuransätze ermöglicht wurde. Für das Vortrainieren haben wir eine Korpus von insgesamt 3,1 Billionen Tokens in Englisch und Chinesisch mittels eines kaskadierten Deduplikations- und Qualitätsfilterungsprozesses erstellt. Für das Fine-Tuning haben wir eine kleine Anzahl an Anweisungsdaten (weniger als 10.000 Instanzen) über mehrere Iterationen hinweg verfeinert, wobei jede einzelne Instanz direkt von unseren maschinellen Lerningenieuren überprüft wurde. Für die visuell-sprachliche Modellierung kombinieren wir das Chat-Sprachmodell mit einem Vision-Transformer-Encoder und trainieren das Modell, um visuelle Darstellungen in den semantischen Raum des Sprachmodells zu alignen. Wir verlängern zudem die Kontextlänge auf 200.000 Token durch eine leichtgewichtige kontinuierliche Vortrainierung und demonstrieren eine starke Leistung beim „Needle-in-a-Haystack“-Retrieval. Wir zeigen, dass die Erweiterung der Tiefe des vortrainierten Checkpoints durch kontinuierliches Vortrainieren die Modellleistung weiter verbessert. Wir sind überzeugt, dass unsere aktuellen Ergebnisse darauf hindeuten, dass die weitere Skalierung der Modellparameter unter Verwendung sorgfältig optimierter Daten zu noch leistungsfähigeren Spitzenmodellen führen wird.

Yi: Offene Grundmodelle von 01.AI | Neueste Forschungsarbeiten | HyperAI