HyperAI

Déploiement En Un Clic De Phi-3.5-vision-instruct

Présentation du modèle

Phi-3.5-vision-instruct est un modèle multimodal de la série Phi-3.5 publié par Microsoft, conçu pour les applications qui traitent du texte et des entrées visuelles. Le modèle prend en charge une longueur de contexte de 128 Ko et a subi un processus rigoureux de réglage fin et d'optimisation, ce qui le rend adapté à une utilisation généralisée dans les domaines commerciaux et de recherche dans des environnements avec une mémoire ou des ressources informatiques limitées et des exigences élevées en matière de faible latence. Le modèle Phi-3.5-vision-instruct dispose de capacités étendues telles que la compréhension d'images, la reconnaissance optique de caractères (OCR), l'analyse de graphiques et de tableaux et la synthèse de plusieurs images ou clips vidéo, ce qui le rend parfaitement adapté à une variété d'applications basées sur l'IA. A démontré des gains de performance significatifs dans les benchmarks liés au traitement d'images et de vidéos. L'architecture du modèle se compose d'un système de 4,2 milliards de paramètres intégrant l'encodeur d'image, le connecteur, le projecteur et le modèle de langage Phi-3 Mini. La formation a utilisé 256 GPU NVIDIA A100-80G, a duré 6 jours et les données de formation comprenaient 500 milliards de jetons (visuels et textuels).

Le modèle Phi-3.5-vision-instruct obtient un score de 43,0 en compréhension multimodale multi-images (MMMU), démontrant ses capacités améliorées dans la gestion de tâches complexes de compréhension d'images. De plus, le modèle est formé à l’aide de données éducatives de haute qualité, de données synthétiques et de documents publics strictement contrôlés pour garantir la qualité et la confidentialité des données.

Ce tutoriel peut être démarré en utilisant une seule carte 4090.

Comment courir

1. 克隆并成功启动容器后,等待约 10s,将鼠标悬浮在「API 地址」处,拷贝链接到新标签页打开
2. 可以看到如下界面
3. 点击上传图片,选择模型,并输入问题,点击 Submit
4. 生成结果

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓