Présentation du modèle

Phi-3.5-vision-instruct est un modèle multimodal de la série Phi-3.5 publié par Microsoft, conçu pour les applications qui traitent du texte et des entrées visuelles. Le modèle prend en charge une longueur de contexte de 128 Ko et a subi un processus rigoureux de réglage fin et d'optimisation, ce qui le rend adapté à une utilisation généralisée dans les domaines commerciaux et de recherche dans des environnements avec une mémoire ou des ressources informatiques limitées et des exigences élevées en matière de faible latence. Le modèle Phi-3.5-vision-instruct dispose de capacités étendues telles que la compréhension d'images, la reconnaissance optique de caractères (OCR), l'analyse de graphiques et de tableaux et la synthèse de plusieurs images ou clips vidéo, ce qui le rend parfaitement adapté à une variété d'applications basées sur l'IA. A démontré des gains de performance significatifs dans les benchmarks liés au traitement d'images et de vidéos. L'architecture du modèle se compose d'un système de 4,2 milliards de paramètres intégrant l'encodeur d'image, le connecteur, le projecteur et le modèle de langage Phi-3 Mini. La formation a utilisé 256 GPU NVIDIA A100-80G, a duré 6 jours et les données de formation comprenaient 500 milliards de jetons (visuels et textuels).

Le modèle Phi-3.5-vision-instruct obtient un score de 43,0 en compréhension multimodale multi-images (MMMU), démontrant ses capacités améliorées dans la gestion de tâches complexes de compréhension d'images. De plus, le modèle est formé à l’aide de données éducatives de haute qualité, de données synthétiques et de documents publics strictement contrôlés pour garantir la qualité et la confidentialité des données.

Ce tutoriel peut être démarré en utilisant une seule carte 4090.

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

HyperAI

Exécuter ce Notebook

Date

il y a un an

Taille

781.92 MB

Balises

Compréhension D'images

Multimodal

Microsoft

Présentation du modèle

Ce tutoriel peut être démarré en utilisant une seule carte 4090.

Comment courir

1. 克隆并成功启动容器后，等待约 10s，将鼠标悬浮在「API 地址」处，拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片，选择模型，并输入问题，点击 Submit

4. 生成结果

Échange et discussion

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Présentation du modèle

Ce tutoriel peut être démarré en utilisant une seule carte 4090.

Échange et discussion

Command Palette

Déploiement En Un Clic De Phi-3.5-vision-instruct

Présentation du modèle

Comment courir

Échange et discussion

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Déploiement En Un Clic De Phi-3.5-vision-instruct

Présentation du modèle

Comment courir

Échange et discussion

Associé Notebooks

Déploiement En Un Clic De l'instruction Ministry-3-14B-Instruct

Chandra : OCR De Documents De Haute Précision

llama.cpp+openwebui Déploie Qwen3-VL-8B-Instruct-GGUF

Déploiement En Un Clic De DeepSeek-R1-70B

Déploiement En Un Clic Du Modèle De Raisonnement Médical MedGemma-27b-text-it

Déploiement En Un Clic Du Modèle SmolLM3-3B

Déploiement En Un Clic De Qwen-Image-Lightning

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

PaddleOCR-VL : Analyse De Documents Multimodaux

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Déploiement En Un Clic De Phi-3.5-vision-instruct

Présentation du modèle

Comment courir

Échange et discussion

Associé Notebooks

Déploiement En Un Clic De l'instruction Ministry-3-14B-Instruct

Chandra : OCR De Documents De Haute Précision

llama.cpp+openwebui Déploie Qwen3-VL-8B-Instruct-GGUF

Déploiement En Un Clic De DeepSeek-R1-70B

Déploiement En Un Clic Du Modèle De Raisonnement Médical MedGemma-27b-text-it

Déploiement En Un Clic Du Modèle SmolLM3-3B

Déploiement En Un Clic De Qwen-Image-Lightning

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

PaddleOCR-VL : Analyse De Documents Multimodaux

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

Déploiement En Un Clic De l'instruction Ministry-3-14B-Instruct

Chandra : OCR De Documents De Haute Précision

llama.cpp+openwebui Déploie Qwen3-VL-8B-Instruct-GGUF

Déploiement En Un Clic De DeepSeek-R1-70B

Déploiement En Un Clic Du Modèle De Raisonnement Médical MedGemma-27b-text-it

Déploiement En Un Clic Du Modèle SmolLM3-3B

Déploiement En Un Clic De Qwen-Image-Lightning

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

PaddleOCR-VL : Analyse De Documents Multimodaux

Associé Notebooks

Déploiement En Un Clic De l'instruction Ministry-3-14B-Instruct

Chandra : OCR De Documents De Haute Précision

llama.cpp+openwebui Déploie Qwen3-VL-8B-Instruct-GGUF

Déploiement En Un Clic De DeepSeek-R1-70B

Déploiement En Un Clic Du Modèle De Raisonnement Médical MedGemma-27b-text-it

Déploiement En Un Clic Du Modèle SmolLM3-3B

Déploiement En Un Clic De Qwen-Image-Lightning

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

PaddleOCR-VL : Analyse De Documents Multimodaux