Qwen3-Omni-30B-A3B-Captioner : Audiodescription Grand Modèle
1. Introduction au tutoriel

Qwen3-Omni-30B-A3B-Captioner est un modèle d'audiodescription complet, publié par l'équipe Alibaba Tongyi Qianwen en septembre 2025. Sans aucune invite, ce modèle génère automatiquement des descriptions précises et complètes pour les discours complexes, les sons ambiants, la musique et les effets sonores de films et de télévision. Il peut identifier les émotions des locuteurs, les éléments musicaux (comme le style et les instruments) et les informations sensibles. Il est adapté à l'analyse de contenu audio, aux audits de sécurité, à la reconnaissance d'intentions, au montage audio et à d'autres domaines. Articles connexes :Rapport technique Qwen3-Omini".
Ce tutoriel utilise une seule carte RTX A6000 comme ressource.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page. Remarque : La durée de l'audio est limitée à 30 secondes. La génération des résultats prend environ 3 à 5 minutes.

Description des paramètres
- Température:Plus la valeur est petite, plus les sous-titres sont « conservateurs » et certains ; plus la valeur est grande, plus ils sont aléatoires et innovants.
- Haut-pSélectionnez uniquement les mots à score élevé dont la probabilité cumulée atteint p. Plus p est petit, moins il y a de candidats et plus le texte est conservateur.
- Top-kNe conservez que les k mots présentant la probabilité la plus élevée. Plus k est petit, moins il y a de candidats et plus le texte est conservateur.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
