Cambrian-1 は、ビジョン中心のアプローチで設計されたマルチモーダル llm (mllm) ファミリーです。強力な言語モデルはマルチモーダル機能を強化できますが、視覚コンポーネントの設計選択は十分に検討されておらず、視覚表現の学習研究とは切り離されていることがよくあります。
Cambrian-1 は 5 つの主要な柱を中心に構築されており、それぞれが MLM の設計空間に関する重要な洞察を提供します。
カンブリアン 1 プロジェクトの Web サイト:https://cambrian-mllm.github.io/#visual-representation
モデル | # トック | MMB | SQA-I | MathVistaM | チャートQA | MMVP |
---|---|---|---|---|---|---|
GPT-4V | UNK | 75.8 | – | 49.9 | 78.5 | 50.0 |
ジェミニ-1.0 プロ | UNK | 73.6 | – | 45.2 | – | – |
ジェミニ-1.5 プロ | UNK | – | – | 52.1 | 81.3 | – |
Grok-1.5 | UNK | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
ベース LLM: LLaMA3-8B-命令 | ||||||
ミニジェミニ-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
カンブリア紀-1-8B | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
ベースLLM:ビクーニャ1.5-13B | ||||||
ミニジェミニ-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
カンブリア紀-1-13B | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
ベースLLM:Hermes2-Yi-34B | ||||||
ミニジェミニ-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
カンブリア紀-1-34B | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
このチュートリアルでは、モデルと環境をデプロイしました。チュートリアルのガイドラインに従って、推論ダイアログに大規模なモデルを直接使用できます。具体的なチュートリアルは次のとおりです。
bash setup.sh
source ~/.bashrc
bash control.sh
bash gradio.sh
、ページ上に生成されたリンクをクリックしてモデル インターフェイスに入ります。bash model.sh
。 「Uvicorn running on...」が表示されたら、開いている Gradio Web インターフェイスに戻ります。更新すると、モデルがデプロイされていることがわかります。次に、画像をアップロードし、モデルに話しかけるためのプロンプトの言葉を入力できます。モデルにはユーザーが調整できるパラメータが多数あります。