Rapport technique Baichuan-Omni

Les capacités multimodales marquantes et l’expérience d’interaction de GPT-4o mettent en évidence son rôle crucial dans les applications pratiques, tout en manquant d’un équivalent open-source performant. Dans cet article, nous introduisons Baichuan-Omni, le premier modèle open-source de grande taille multimodal (MLLM) de 7 milliards de paramètres, capable de traiter et d’analyser simultanément les modalités visuelles (image, vidéo), auditives (audio) et textuelles, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d’entraînement multimodal efficace, basé sur un modèle de 7 milliards de paramètres, structuré en deux étapes : une alignement multimodal, suivie d’un fine-tuning multitâche sur les modalités audio, image, vidéo et texte. Cette approche permet au modèle linguistique de traiter efficacement les données visuelles et audio. Démontrant des performances robustes sur divers benchmarks omni-modaux et multimodaux, nous visons à ce travail à devenir une référence compétitive pour la communauté open-source dans l’avancement de la compréhension multimodale et des interactions en temps réel.