HyperAI

VITA-1.5 : Démonstration Du Modèle D'interaction Multimodale

1. Introduction au tutoriel

Construire

VITA-1.5 est un modèle linguistique multimodal à grande échelle qui intègre la vision, le langage et la parole, publié le 7 janvier 2025 par une équipe conjointe de l'Université de Nanjing et du Tencent Youtu Lab. Son objectif est de réaliser une interaction visuelle et vocale en temps réel à un niveau similaire à celui de GPT-4o. VITA-1.5 réduit considérablement le délai d'interaction de 4 secondes à 1,5 seconde, améliorant ainsi considérablement l'expérience utilisateur. Les résultats pertinents de l'article sontVITA-1.5 : Vers une interaction vision-parole en temps réel de niveau GPT-4o".

Ce tutoriel utilise une carte unique A6000 comme ressource. Actuellement, l’interaction de l’IA ne prend en charge que le chinois et l’anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Comment utiliser

Ce manuel propose plusieurs méthodes d’interaction avec l’IA : texte, audio, vidéo et images.

Interaction textuelle

Interaction audio

Interaction image/vidéo

Interaction vidéo

Note:

Lorsque vous utilisez une caméra pour enregistrer une vidéo, la vidéo doit être supprimée immédiatement après la réponse à la question.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{fu2025vita,
  title={VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction},
  author={Fu, Chaoyou and Lin, Haojia and Wang, Xiong and Zhang, Yi-Fan and Shen, Yunhang and Liu, Xiaoyu and Li, Yangze and Long, Zuwei and Gao, Heting and Li, Ke and others},
  journal={arXiv preprint arXiv:2501.01957},
  year={2025}
}

@article{fu2024vita,
  title={Vita: Towards open-source interactive omni multimodal llm},
  author={Fu, Chaoyou and Lin, Haojia and Long, Zuwei and Shen, Yunhang and Zhao, Meng and Zhang, Yifan and Dong, Shaoqi and Wang, Xiong and Yin, Di and Ma, Long and others},
  journal={arXiv preprint arXiv:2408.05211},
  year={2024}
}