HyperAIHyperAI
vor 3 Monaten

Baichuan-Omni Technischer Bericht

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
Baichuan-Omni Technischer Bericht
Abstract

Die herausragenden multimodalen Fähigkeiten und die interaktive Benutzererfahrung von GPT-4o unterstreichen ihre entscheidende Rolle für praktische Anwendungen, sie verfügt jedoch über kein hochleistungsfähiges, quelloffenes Gegenstück. In diesem Paper stellen wir Baichuan-Omni vor, das erste quelloffene Multimodale Große Sprachmodell (MLLM) mit 7B Parametern, das in der Lage ist, gleichzeitig Bilder, Videos, Audiodaten und Text zu verarbeiten und zu analysieren, während es gleichzeitig eine fortschrittliche multimodale Interaktion und hervorragende Leistung bietet. Wir entwickeln ein effektives multimodales Trainingsverfahren, das mit einem 7B-Modell beginnt und über zwei Phasen verläuft: multimodale Ausrichtung und multitask-optimierte Feinjustierung über die Modalitäten Audio, Bild, Video und Text. Dieser Ansatz verleiht dem Sprachmodell die Fähigkeit, visuelle und auditive Daten effektiv zu verarbeiten. Durch eine starke Leistung in verschiedenen Omni-Modal- und Multimodal-Benchmarks zielen wir darauf ab, diesen Beitrag als konkurrenzfähige Grundlage für die quelloffene Community zu etablieren, um die Entwicklung von multimodalem Verständnis und Echtzeit-Interaktion voranzutreiben.