Command Palette
Search for a command to run...
百川オムニ技術報告書
百川オムニ技術報告書
概要
GPT-4oが示す顕著なマルチモーダル機能とインタラクティブ体験は、実用応用におけるその重要な役割を強調しているが、高性能なオープンソース版が存在しないのが現状である。本論文では、画像、動画、音声、テキストの複数モーダルを同時に処理・分析できる、最初の7Bパラメータ規模のオープンソースマルチモーダル大規模言語モデル(MLLM)である「Baichuan-Omni」を紹介する。本モデルは、高度なマルチモーダルインタラクション体験を提供するとともに、優れた性能を発揮する。我々は、7Bモデルを出発点とし、音声、画像、動画、テキストの各モーダルにわたる2段階のマルチモーダル統合と多タスクファインチューニングを経る有効なマルチモーダル学習スキームを提案する。このアプローチにより、言語モデルは視覚的・音声データを効果的に処理する能力を獲得する。複数のオムニモーダルおよびマルチモーダルベンチマークにおいて優れた性能を示した本研究は、オープンソースコミュニティにおけるマルチモーダル理解とリアルタイムインタラクションの進展に向け、競争力のある基準となることを目指している。