Démonstration Du Modèle De Vision Panoramique Multimodal LLaVA-OneVision
Déploiement en un clic de LLaVA-OneVision

Introduction au tutoriel
LLaVA-OneVision est un grand modèle multimodal ouvert développé conjointement en 2024 par des chercheurs de ByteDance, de l'Université technologique de Nanyang, de l'Université chinoise de Hong Kong et de l'Université des sciences et technologies de Hong Kong. Il peut traiter des images, du texte, des entrées entrelacées image-texte et des vidéos. Il s’agit du premier modèle unique capable de surmonter simultanément les goulots d’étranglement des performances des modèles multimodaux ouverts dans ces trois scénarios importants de vision par ordinateur.
Il permet non seulement d'obtenir de fortes capacités d'apprentissage par transfert entre différentes modalités et scènes, mais démontre également ses avantages significatifs en matière de compréhension vidéo et de capacités inter-scènes grâce au transfert de tâches. La caractéristique de LLaVA-OneVision est qu'il peut gérer une variété de tâches visuelles, qu'il s'agisse de l'analyse d'images statiques ou de l'analyse de vidéos dynamiques, il peut fournir une sortie de haute qualité. De plus, le modèle est conçu pour se concentrer sur la cohérence du nombre maximal de marqueurs visuels, garantissant que les représentations visuelles dans différents scénarios sont équilibrées, soutenant ainsi le transfert de capacités entre les scénarios.
Caractéristiques principales :
- Prend en charge diverses résolutions d'entrée jusqu'à 2304*2304 pixels.
- En mode anyres_max_9, une seule entrée d'image peut être représentée par jusqu'à 729*(9+1) jetons.
- Prend en charge plusieurs entrées d'image et de vidéo. L'entrée multi-images est représentée par 729 jetons par image et l'entrée vidéo est représentée par 196 jetons par image. Remarque : ce tutoriel nécessite une seule carte A6000 pour démarrer
Comment courir
1. 克隆并启动容器,待容器状态为「运行中」。由于模型较大,加载模型需要等待约 1 分钟,拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频,并输入文本提示

4. 回车,生成回答

Discussion et échange
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
