Cambrian-1 デモをオンラインで実行する

Cambrian-1 は、ビジョン中心のアプローチで設計されたマルチモーダル llm (mllm) ファミリーです。強力な言語モデルはマルチモーダル機能を強化できますが、視覚コンポーネントの設計選択は十分に検討されておらず、視覚表現の学習研究とは切り離されていることがよくあります。

Cambrian-1 は 5 つの主要な柱を中心に構築されており、それぞれが MLM の設計空間に関する重要な洞察を提供します。

  • 視覚的表現: 研究チームは、さまざまな視覚エンコーダーとその組み合わせを調査しました。
  • コネクタの設計: 研究チームは、トークンの数を減らしながら、いくつかのモデルの視覚的機能を統合する、新しい動的で空間認識型のコネクタを設計しました。
  • 指導チューニング データ: 研究チームは、配布バランスの重要性を強調しながら、公開ソースから高品質のビジュアル指導チューニング データを厳選しています。
  • 命令チューニングのレシピ: 研究チームは、命令チューニングの戦略と実践について話し合います。
  • ベンチマーク: 研究チームは既存のmlmベンチマークを調査し、ビジョン中心の新しいベンチマーク「CV-Bench」を導入しました。

カンブリアン 1 プロジェクトの Web サイト:https://cambrian-mllm.github.io/#visual-representation

モデルのパフォーマンス

モデル# トックMMBSQA-IMathVistaMチャートQAMMVP
GPT-4VUNK75.849.978.550.0
ジェミニ-1.0 プロUNK73.645.2
ジェミニ-1.5 プロUNK52.181.3
Grok-1.5UNK52.876.1
MM-1-8B14472.372.635.9
MM-1-30B14475.181.039.4
ベース LLM: LLaMA3-8B-命令
ミニジェミニ-HD-8B288072.775.137.059.118.7
LLaVA-NeXT-8B288072.172.836.369.538.7
カンブリア紀-1-8B57675.980.449.073.351.3
ベースLLM:ビクーニャ1.5-13B
ミニジェミニ-HD-13B288068.671.937.056.619.3
LLaVA-NeXT-13B288070.073.535.162.236.0
カンブリア紀-1-13B57675.779.348.073.841.3
ベースLLM:Hermes2-Yi-34B
ミニジェミニ-HD-34B288080.677.743.467.637.3
LLaVA-NeXT-34B288079.381.846.568.747.3
カンブリア紀-1-34B57681.485.653.275.652.7

推論ステップをデプロイする

このチュートリアルでは、モデルと環境をデプロイしました。チュートリアルのガイドラインに従って、推論ダイアログに大規模なモデルを直接使用できます。具体的なチュートリアルは次のとおりです。

1. 初期設定

1. リソース割り当て後にワークスペースを開きます

1

2.ターミナルを開いてコマンドを入力します bash setup.sh

2

3. システムが「Environment variable added to .bashrc」と出力した後、次のコマンドを入力します。 source ~/.bashrc


2. コントローラーを起動する

4. 初期化が完了したら、ターミナルにコマンドを入力します。 bash control.sh

3

3. インターフェースを開きます

5. 15 秒ほど待ってから、新しい端末、コマンドを入力します bash gradio.sh、ページ上に生成されたリンクをクリックしてモデル インターフェイスに入ります。

6. この時点で、モデル インターフェイスに選択できるモデルがないことに気づきました。これは、モデルをまだ構成していないためです。この時点で、4 番目のステップが必要になります。


4. モデル構成

7. もう一度開きます新しい端末 コマンドを入力してください bash model.sh 。 「Uvicorn running on...」が表示されたら、開いている Gradio Web インターフェイスに戻ります。更新すると、モデルがデプロイされていることがわかります。次に、画像をアップロードし、モデルに話しかけるためのプロンプトの言葉を入力できます。

モデルにはユーザーが調整できるパラメータが多数あります。

  • 温度は出力コンテンツの創造性とランダム性に影響を与える可能性があります。
  • Top p は候補単語セットのサイズを制御し、生成されるテキストの品質と多様性に影響を与えることができます。
  • [最大出力トークン] では、出力トークンの最大数を変更できます。