Command Palette
Search for a command to run...
Rapport technique Baichuan-Omni
Rapport technique Baichuan-Omni
Résumé
Les capacités multimodales marquantes et l’expérience interactive de GPT-4o mettent en évidence son rôle crucial dans les applications pratiques, tout en manquant d’un équivalent open-source performant. Dans cet article, nous présentons Baichuan-Omni, le premier modèle linguistique à grande échelle multimodal (MLLM) open-source de 7 milliards de paramètres, capable de traiter et d’analyser simultanément les modalités visuelles (image, vidéo), audio et textuelles, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d’entraînement multimodal efficace, basé sur un modèle de 7 milliards de paramètres, structuré en deux étapes : une alignement multimodal, suivie d’un fine-tuning multitâche sur les modalités audio, image, vidéo et texte. Cette approche permet au modèle linguistique de traiter efficacement les données visuelles et audio. Démontrant des performances robustes sur diverses évaluations omni-modales et multimodales, nous espérons que cette contribution constituera une référence compétitive pour la communauté open-source dans l’avancement de la compréhension multimodale et de l’interaction en temps réel.