3ヶ月前

百川オムニ技術報告書

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
百川オムニ技術報告書
要約

GPT-4oの顕著なマルチモーダル機能とインタラクティブ体験は、実用応用における重要な役割を強調しているが、高性能なオープンソース代替品が存在しないのが現状である。本論文では、画像、動画、音声、テキストの複数モーダルを同時に処理・分析できる、最初の7Bパラメータ規模のオープンソースマルチモーダル大規模言語モデル(MLLM)であるBaichuan-Omniを紹介する。本モデルは、高度なマルチモーダルインタラクション体験を提供するとともに、優れた性能を発揮する。我々は、7Bモデルを出発点とし、音声・画像・動画・テキストの複数モーダルにわたる二段階のマルチモーダルアライメントとマルチタスクファインチューニングを経る有効なマルチモーダル学習スキームを提案する。このアプローチにより、言語モデルが視覚的および音声データを効果的に処理できる能力を獲得する。様々なオムニモーダルおよびマルチモーダルベンチマークにおいて優れた性能を示す本研究は、オープンソースコミュニティにおけるマルチモーダル理解とリアルタイム相互作用の進展に向けた競争力のある基準となることを目指している。