Phi-3.5-vision-instruct のワンクリック展開

モデル紹介

Phi-3.5-vision-instruct は、Microsoft がリリースした Phi-3.5 シリーズのマルチモーダル モデルで、テキストおよび視覚入力を処理するアプリケーション向けに設計されています。このモデルは 128K のコンテキスト長をサポートしており、厳密な微調整と最適化プロセスを経ており、メモリまたはコンピューティング リソースが限られており、高い低遅延要件がある商業および研究分野での広範な使用に適しています。 Phi-3.5-vision-instruct モデルには、広範な画像理解、光学式文字認識 (OCR)、チャートと表の解析、複数画像またはビデオ クリップの要約などの機能が備わっており、さまざまな AI 駆動型アプリケーションに最適です。画像およびビデオ処理に関連するベンチマークで大幅なパフォーマンスの向上を実証しました。このモデルのアーキテクチャには、画像エンコーダ、コネクタ、プロジェクター、および Phi-3 Mini 言語モデルを統合する 42 億パラメータのシステムが含まれています。トレーニングでは 256 個の NVIDIA A100-80G GPU が使用され、トレーニング時間は 6 日間で、トレーニング データには 5,000 億のトークン (ビジュアルおよびテキスト) が含まれていました。

Phi-3.5-vision-instruct モデルは、マルチモーダル複数画像理解 (MMMU) で 43.0 のスコアを獲得し、複雑な画像理解タスクを処理する能力が向上していることを示しています。さらに、モデルは高品質の教育データ、合成データ、および厳格に審査された公的文書を使用してトレーニングされ、データの品質とプライバシーが保証されます。

このチュートリアルは 1 枚のカード 4090 を使用して開始できます。

実行メソッド

1. 克隆并成功启动容器后,等待约 10s,将鼠标悬浮在「API 地址」处,拷贝链接到新标签页打开
2. 可以看到如下界面
3. 点击上传图片,选择模型,并输入问题,点击 Submit
4. 生成结果

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。