モデル紹介

Phi-3.5-vision-instruct は、Microsoft がリリースした Phi-3.5 シリーズのマルチモーダルモデルで、テキストおよび視覚入力を処理するアプリケーション向けに設計されています。このモデルは 128K のコンテキスト長をサポートしており、厳密な微調整と最適化プロセスを経ており、メモリまたはコンピューティングリソースが限られており、高い低遅延要件がある商業および研究分野での広範な使用に適しています。 Phi-3.5-vision-instruct モデルには、広範な画像理解、光学式文字認識 (OCR)、チャートと表の解析、複数画像またはビデオクリップの要約などの機能が備わっており、さまざまな AI 駆動型アプリケーションに最適です。画像およびビデオ処理に関連するベンチマークで大幅なパフォーマンスの向上を実証しました。このモデルのアーキテクチャには、画像エンコーダ、コネクタ、プロジェクター、および Phi-3 Mini 言語モデルを統合する 42 億パラメータのシステムが含まれています。トレーニングでは 256 個の NVIDIA A100-80G GPU が使用され、トレーニング時間は 6 日間で、トレーニングデータには 5,000 億のトークン (ビジュアルおよびテキスト) が含まれていました。

Phi-3.5-vision-instruct モデルは、マルチモーダル複数画像理解 (MMMU) で 43.0 のスコアを獲得し、複雑な画像理解タスクを処理する能力が向上していることを示しています。さらに、モデルは高品質の教育データ、合成データ、および厳格に審査された公的文書を使用してトレーニングされ、データの品質とプライバシーが保証されます。

このチュートリアルは 1 枚のカード 4090 を使用して開始できます。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

HyperAI

このNotebookを実行 Discordで議論

日付

1年前

サイズ

781.92 MB

タグ

画像理解

マルチモーダル

マイクロソフト

モデル紹介

このチュートリアルは 1 枚のカード 4090 を使用して開始できます。

実行メソッド

1. 克隆并成功启动容器后，等待约 10s，将鼠标悬浮在「API 地址」处，拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片，选择模型，并输入问题，点击 Submit

4. 生成结果

交流とディスカッション

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

モデル紹介

このチュートリアルは 1 枚のカード 4090 を使用して開始できます。

交流とディスカッション

Command Palette

Phi-3.5-vision-instruct のワンクリック展開

モデル紹介

実行メソッド

交流とディスカッション

AIでAIを構築

HyperAI Newsletters

Command Palette

Phi-3.5-vision-instruct のワンクリック展開

モデル紹介

実行メソッド

交流とディスカッション

関連 ノートブック

Ministry-3-14B-Instructのワンクリック展開

Chandra: 高精度ドキュメントOCR

llama.cpp+openwebuiはQwen3-VL-8B-Instruct-GGUFを展開します。

DeepSeek-R1-70Bのワンクリック展開

MedGemma-27b-text-it医療推論モデルのワンクリック展開

SmolLM3-3Bモデルのワンクリック展開

Qwen-Image-Lightningのワンクリック展開

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

PaddleOCR-VL: マルチモーダルドキュメント解析

AIでAIを構築

HyperAI Newsletters

Command Palette

Phi-3.5-vision-instruct のワンクリック展開

モデル紹介

実行メソッド

交流とディスカッション

関連 ノートブック

Ministry-3-14B-Instructのワンクリック展開

Chandra: 高精度ドキュメントOCR

llama.cpp+openwebuiはQwen3-VL-8B-Instruct-GGUFを展開します。

DeepSeek-R1-70Bのワンクリック展開

MedGemma-27b-text-it医療推論モデルのワンクリック展開

SmolLM3-3Bモデルのワンクリック展開

Qwen-Image-Lightningのワンクリック展開

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

PaddleOCR-VL: マルチモーダルドキュメント解析

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Ministry-3-14B-Instructのワンクリック展開

Chandra: 高精度ドキュメントOCR

llama.cpp+openwebuiはQwen3-VL-8B-Instruct-GGUFを展開します。

DeepSeek-R1-70Bのワンクリック展開

MedGemma-27b-text-it医療推論モデルのワンクリック展開

SmolLM3-3Bモデルのワンクリック展開

Qwen-Image-Lightningのワンクリック展開

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

PaddleOCR-VL: マルチモーダルドキュメント解析

関連 ノートブック

Ministry-3-14B-Instructのワンクリック展開

Chandra: 高精度ドキュメントOCR

llama.cpp+openwebuiはQwen3-VL-8B-Instruct-GGUFを展開します。

DeepSeek-R1-70Bのワンクリック展開

MedGemma-27b-text-it医療推論モデルのワンクリック展開

SmolLM3-3Bモデルのワンクリック展開

Qwen-Image-Lightningのワンクリック展開

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

PaddleOCR-VL: マルチモーダルドキュメント解析

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック