HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen3-Omni-30B-A3B-Captioner : Audiodescription Grand Modèle

Date

il y a 4 mois

Size

1.37 GB

License

Apache 2.0

Paper URL

github.com

1. Introduction au tutoriel

Étoiles GitHub

Qwen3-Omni-30B-A3B-Captioner est un modèle d'audiodescription complet, publié par l'équipe Alibaba Tongyi Qianwen en septembre 2025. Sans aucune invite, ce modèle génère automatiquement des descriptions précises et complètes pour les discours complexes, les sons ambiants, la musique et les effets sonores de films et de télévision. Il peut identifier les émotions des locuteurs, les éléments musicaux (comme le style et les instruments) et les informations sensibles. Il est adapté à l'analyse de contenu audio, aux audits de sécurité, à la reconnaissance d'intentions, au montage audio et à d'autres domaines. Articles connexes :Rapport technique Qwen3-Omini".

Ce tutoriel utilise une seule carte RTX A6000 comme ressource.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.  Remarque : La durée de l'audio est limitée à 30 secondes. La génération des résultats prend environ 3 à 5 minutes.

Description des paramètres

  • Température:Plus la valeur est petite, plus les sous-titres sont « conservateurs » et certains ; plus la valeur est grande, plus ils sont aléatoires et innovants.
  • Haut-pSélectionnez uniquement les mots à score élevé dont la probabilité cumulée atteint p. Plus p est petit, moins il y a de candidats et plus le texte est conservateur.
  • Top-kNe conservez que les k mots présentant la probabilité la plus élevée. Plus k est petit, moins il y a de candidats et plus le texte est conservateur.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Qwen3-Omni-30B-A3B-Captioner : Audiodescription Grand Modèle | Notebooks | HyperAI