6ヶ月前

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Yadong Li Haoze Sun Mingan Lin Tianpeng Li Guosheng Dong Tao Zhang Bowen Ding Wei Song Zhenglin Cheng Yuqi Huo

概要

GPT-4oが示す顕著なマルチモーダル機能とインタラクティブ体験は、実用応用におけるその重要な役割を強調しているが、高性能なオープンソース版が存在しないのが現状である。本論文では、画像、動画、音声、テキストの複数モーダルを同時に処理・分析できる、最初の7Bパラメータ規模のオープンソースマルチモーダル大規模言語モデル（MLLM）である「Baichuan-Omni」を紹介する。本モデルは、高度なマルチモーダルインタラクション体験を提供するとともに、優れた性能を発揮する。我々は、7Bモデルを出発点とし、音声、画像、動画、テキストの各モーダルにわたる2段階のマルチモーダル統合と多タスクファインチューニングを経る有効なマルチモーダル学習スキームを提案する。このアプローチにより、言語モデルは視覚的・音声データを効果的に処理する能力を獲得する。複数のオムニモーダルおよびマルチモーダルベンチマークにおいて優れた性能を示した本研究は、オープンソースコミュニティにおけるマルチモーダル理解とリアルタイムインタラクションの進展に向け、競争力のある基準となることを目指している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Yadong Li Haoze Sun Mingan Lin Tianpeng Li Guosheng Dong Tao Zhang Bowen Ding Wei Song Zhenglin Cheng Yuqi Huo

概要

GPT-4oが示す顕著なマルチモーダル機能とインタラクティブ体験は、実用応用におけるその重要な役割を強調しているが、高性能なオープンソース版が存在しないのが現状である。本論文では、画像、動画、音声、テキストの複数モーダルを同時に処理・分析できる、最初の7Bパラメータ規模のオープンソースマルチモーダル大規模言語モデル（MLLM）である「Baichuan-Omni」を紹介する。本モデルは、高度なマルチモーダルインタラクション体験を提供するとともに、優れた性能を発揮する。我々は、7Bモデルを出発点とし、音声、画像、動画、テキストの各モーダルにわたる2段階のマルチモーダル統合と多タスクファインチューニングを経る有効なマルチモーダル学習スキームを提案する。このアプローチにより、言語モデルは視覚的・音声データを効果的に処理する能力を獲得する。複数のオムニモーダルおよびマルチモーダルベンチマークにおいて優れた性能を示した本研究は、オープンソースコミュニティにおけるマルチモーダル理解とリアルタイムインタラクションの進展に向け、競争力のある基準となることを目指している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

百川オムニ技術報告書 | 記事 | HyperAI超神経