HyperAI

このNotebookを実行 Discordで議論

日付

2年前

サイズ

56.09 GB

タグ

マルチモーダル

Cambrian-1 は、ビジョン中心のアプローチで設計されたマルチモーダル llm (mllm) ファミリーです。強力な言語モデルはマルチモーダル機能を強化できますが、視覚コンポーネントの設計選択は十分に検討されておらず、視覚表現の学習研究とは切り離されていることがよくあります。

Cambrian-1 は 5 つの主要な柱を中心に構築されており、それぞれが MLM の設計空間に関する重要な洞察を提供します。

視覚的表現: 研究チームは、さまざまな視覚エンコーダーとその組み合わせを調査しました。
コネクタの設計: 研究チームは、トークンの数を減らしながら、いくつかのモデルの視覚的機能を統合する、新しい動的で空間認識型のコネクタを設計しました。
指導チューニングデータ: 研究チームは、配布バランスの重要性を強調しながら、公開ソースから高品質のビジュアル指導チューニングデータを厳選しています。
命令チューニングのレシピ: 研究チームは、命令チューニングの戦略と実践について話し合います。
ベンチマーク: 研究チームは既存のmlmベンチマークを調査し、ビジョン中心の新しいベンチマーク「CV-Bench」を導入しました。

カンブリアン 1 プロジェクトの Web サイト:https://cambrian-mllm.github.io/#visual-representation

モデルのパフォーマンス

モデル	# トック	MMB	SQA-I	MathVistaM	チャートQA	MMVP
GPT-4V	UNK	75.8	–	49.9	78.5	50.0
ジェミニ-1.0 プロ	UNK	73.6	–	45.2	–	–
ジェミニ-1.5 プロ	UNK	–	–	52.1	81.3	–
Grok-1.5	UNK	–	–	52.8	76.1	–
MM-1-8B	144	72.3	72.6	35.9	–	–
MM-1-30B	144	75.1	81.0	39.4	–	–
ベース LLM: LLaMA3-8B-命令
ミニジェミニ-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
カンブリア紀-1-8B	576	75.9	80.4	49.0	73.3	51.3
ベースLLM：ビクーニャ1.5-13B
ミニジェミニ-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
カンブリア紀-1-13B	576	75.7	79.3	48.0	73.8	41.3
ベースLLM：Hermes2-Yi-34B
ミニジェミニ-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
カンブリア紀-1-34B	576	81.4	85.6	53.2	75.6	52.7

推論ステップをデプロイする

このチュートリアルでは、モデルと環境をデプロイしました。チュートリアルのガイドラインに従って、推論ダイアログに大規模なモデルを直接使用できます。具体的なチュートリアルは次のとおりです。

1. 初期設定

1. リソース割り当て後にワークスペースを開きます

2.ターミナルを開いてコマンドを入力します `bash setup.sh`

3. システムが「Environment variable added to .bashrc」と出力した後、次のコマンドを入力します。 `source ~/.bashrc`

2. コントローラーを起動する

4. 初期化が完了したら、ターミナルにコマンドを入力します。 `bash control.sh`

3. インターフェースを開きます

5. 15 秒ほど待ってから、新しい端末、コマンドを入力します `bash gradio.sh`、ページ上に生成されたリンクをクリックしてモデルインターフェイスに入ります。

6. この時点で、モデルインターフェイスに選択できるモデルがないことに気づきました。これは、モデルをまだ構成していないためです。この時点で、4 番目のステップが必要になります。

4. モデル構成

7. もう一度開きます新しい端末コマンドを入力してください `bash model.sh` 。「Uvicorn running on...」が表示されたら、開いている Gradio Web インターフェイスに戻ります。更新すると、モデルがデプロイされていることがわかります。次に、画像をアップロードし、モデルに話しかけるためのプロンプトの言葉を入力できます。

モデルにはユーザーが調整できるパラメータが多数あります。

温度は出力コンテンツの創造性とランダム性に影響を与える可能性があります。
Top p は候補単語セットのサイズを制御し、生成されるテキストの品質と多様性に影響を与えることができます。
[最大出力トークン] では、出力トークンの最大数を変更できます。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています