HyperAIHyperAI
il y a 3 mois

Rapport technique Baichuan-Omni

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
Rapport technique Baichuan-Omni
Résumé

Les capacités multimodales marquantes et l’expérience d’interaction de GPT-4o mettent en évidence son rôle crucial dans les applications pratiques, tout en manquant d’un équivalent open-source performant. Dans cet article, nous introduisons Baichuan-Omni, le premier modèle open-source de grande taille multimodal (MLLM) de 7 milliards de paramètres, capable de traiter et d’analyser simultanément les modalités visuelles (image, vidéo), auditives (audio) et textuelles, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d’entraînement multimodal efficace, basé sur un modèle de 7 milliards de paramètres, structuré en deux étapes : une alignement multimodal, suivie d’un fine-tuning multitâche sur les modalités audio, image, vidéo et texte. Cette approche permet au modèle linguistique de traiter efficacement les données visuelles et audio. Démontrant des performances robustes sur divers benchmarks omni-modaux et multimodaux, nous visons à ce travail à devenir une référence compétitive pour la communauté open-source dans l’avancement de la compréhension multimodale et des interactions en temps réel.