HyperAIHyperAI
il y a 15 jours

Yi : Modèles fondamentaux ouverts par 01.AI

01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
Yi : Modèles fondamentaux ouverts par 01.AI
Résumé

Nous présentons la famille de modèles Yi, une série de modèles linguistiques et multimodaux démontrant des capacités multidimensionnelles robustes. La famille Yi repose sur des modèles préentraînés linguistiques de 6 milliards et 34 milliards de paramètres, que nous avons ensuite étendus à des modèles de dialogue, des modèles à contexte long de 200 000 tokens, des modèles profondément escaladés, ainsi que des modèles vision-langage. Nos modèles de base atteignent des performances solides sur une large gamme de benchmarks, tels que MMLU, tandis que nos modèles de dialogue fine-tunés obtiennent des taux élevés de préférence humaine sur des plateformes d'évaluation majeures comme AlpacaEval et Chatbot Arena. Fondés sur notre infrastructure de supercalcul évolutif et sur l'architecture classique des Transformers, nous attribuons principalement la performance des modèles Yi à la qualité de leurs données, résultant de nos efforts en ingénierie de données. Pour l'entraînement préalable, nous avons construit un corpus de 3,1 billions de tokens en anglais et chinois, en utilisant un pipeline en cascade de déduplication des données et de filtrage de qualité. Pour le fine-tuning, nous avons perfectionné un petit jeu de données d'instructions (inférieur à 10 000 exemples) sur plusieurs itérations, chaque instance étant vérifiée directement par nos ingénieurs en apprentissage automatique. Pour les modèles vision-langage, nous combinons un modèle linguistique de dialogue avec un encodeur Transformer visionnel, puis entraînons le modèle afin d’aligner les représentations visuelles sur l’espace sémantique du modèle linguistique. Nous avons également étendu la longueur du contexte à 200 000 tokens grâce à un préentraînement continu léger, démontrant ainsi une performance remarquable dans des tâches de recherche de « aiguille dans une botte de foin ». Nous montrons que l’augmentation de la profondeur du point de contrôle préentraîné via un préentraînement continu améliore davantage les performances. Nous pensons qu’étant donné nos résultats actuels, la poursuite de l’augmentation de la taille des modèles, à l’aide de données rigoureusement optimisées, conduira à des modèles de pointe encore plus puissants.

Yi : Modèles fondamentaux ouverts par 01.AI | Articles de recherche récents | HyperAI