1. Introduction au tutoriel

Qwen2.5-Omni est le dernier modèle phare multimodal de bout en bout lancé par l'équipe Alibaba Tongyi Qianwen le 27 mars 2025. Il est conçu pour une perception multimodale complète et traite de manière transparente diverses entrées, notamment du texte, des images, de l'audio et de la vidéo, tout en prenant en charge la génération de texte en streaming et la sortie de synthèse vocale naturelle.

Caractéristiques principales

Une architecture innovante à tous les niveaux:Il adopte une nouvelle architecture Thinker-Talker, un modèle multimodal de bout en bout conçu pour prendre en charge la compréhension intermodale du texte/image/audio/vidéo tout en générant du texte et des réponses vocales naturelles en streaming. L'équipe de recherche a proposé une nouvelle technologie de codage positionnel appelée TMRoPE (Time-aligned Multimodal RoPE), qui permet une synchronisation précise des entrées vidéo et audio grâce à l'alignement de l'axe temporel.
Interaction audio et vidéo en temps réel:L'architecture est conçue pour prendre en charge une interaction complète en temps réel, prenant en charge l'entrée fragmentée et la sortie immédiate.
Génération de parole naturelle et fluide:Surpasse de nombreuses alternatives de streaming et de non-streaming existantes en termes de naturel et de stabilité de la génération de la parole.
Avantage de performance omnimodale:Démontre des performances supérieures lorsqu'il est comparé à des modèles unimodaux de taille similaire. Le Qwen2.5-Omni surpasse le Qwen2-Audio de taille similaire en termes de capacités audio et est à égalité avec le Qwen2.5-VL-7B.
Excellente capacité de suivi des commandes vocales de bout en bout:Qwen2.5-Omni montre des résultats comparables au traitement de saisie de texte dans le suivi des commandes vocales de bout en bout et excelle dans des tests de référence tels que la compréhension des connaissances générales MMLU et le raisonnement mathématique GSM8K.

Ce tutoriel utilise Qwen2.5-Omni comme démonstration et les ressources de calcul sont A6000.

Fonctions de support :

Dialogue multimodal en ligne
Conversation multimodale hors ligne

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Lorsque la zone de saisie est orange, cela signifie que le modèle répond.

Qwen2.5-Omni prend en charge la modification du son de la sortie audio. Le point de contrôle « Qwen/Qwen2.5-Omni-7B » prend en charge les deux types de son suivants :

Type de tonalité	genre	décrire
Chelsie	femelle	Doux, tendre, brillant, tendre
Ethan	mâle	Soleil, vitalité, légèreté, affinité

Dialogue multimodal en ligne
Activez les autorisations du microphone et de la caméra sur la page Web afin de pouvoir avoir des conversations en temps réel avec Qwen2.5-Omni une fois l'enregistrement terminé.

Conversation multimodale hors ligne
Téléchargez directement des fichiers multimodaux et communiquez avec Qwen2.5-Omni avec du contenu texte.
Remarque : le fichier vidéo doit contenir du son. S'il n'y a pas de son, un message d'erreur s'affichera.

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓