Command Palette
Search for a command to run...
Qwen3-Omni : Un Véhicule Polyvalent Qui Repousse Les Limites Modales
Date
Size
2.46 GB
Tags
License
Apache 2.0
GitHub
Paper URL
1. Introduction au tutoriel

Qwen3-Omni, lancé en septembre 2025 par l'équipe Tongyi Qianwen d'Alibaba, est le premier modèle d'IA multimodal natif de bout en bout du secteur. Il peut traiter divers types d'entrées, notamment du texte, des images, de l'audio et de la vidéo, et fournir des résultats en temps réel, avec du texte et de la parole naturelle. Il résout ainsi le problème récurrent des compromis entre les différentes fonctionnalités requises pour les modèles multimodaux. Des articles de recherche associés sont disponibles. Rapport technique Qwen3-Omni .
Ce tutoriel utilise des ressources de calcul RTX A6000 à double GPU et fournit deux modèles, Qwen3-Omni-30B-A3B-Instruct et Qwen3-Omni-30B-A3B-Thinking, pour les tests.
Qwen3-Omni-30B-A3B-Instruct est un modèle d'instructions pour Qwen3-Omni-30B-A3B. Il comprend un penseur et un haut-parleur, prend en charge la saisie audio, vidéo et texte, et produit des signaux audio et texte.
Qwen3-Omni-30B-A3B-Thinking est le modèle de pensée de Qwen3-Omni-30B-A3B. Il comprend un composant de réflexion, permet le raisonnement par chaîne de pensée, prend en charge la saisie audio, vidéo et texte, et génère du texte.
2. Affichage des effets
Conversation audio en ligne

Conversation vidéo en ligne

Conversation audio hors ligne


Chat vidéo hors ligne

Compréhension de l'image

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 3 à 5 minutes et actualiser la page.
Conversation audio en ligne

Conversation vidéo en ligne

Conversation audio hors ligne

Chat vidéo hors ligne

Compréhension de l'image

Description des paramètres :
- Invite système : l'invite initiale donnée au modèle par le système.
- Température : Plus la valeur est petite, plus les sous-titres sont « conservateurs » et certains ; plus la valeur est grande, plus ils sont aléatoires et novateurs.
- Top-p : Sélectionnez uniquement les mots à score élevé dont la probabilité cumulée atteint p. Plus p est petit, moins il y a de candidats et plus le texte est conservateur.
- Top-k : Ne conserver que les k mots présentant la probabilité la plus élevée. Plus k est petit, moins il y a de candidats et plus le texte est conservateur.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.