HyperAIHyperAI

Command Palette

Search for a command to run...

Audiobox : Génération audio unifiée à l’aide de promts en langage naturel

Résumé

L’audio est une composante essentielle de notre vie quotidienne, mais sa création exige souvent des compétences spécialisées et est chronophage. Au cours de la dernière année, les communautés de recherche ont réalisé des progrès significatifs dans l’amélioration des performances des modèles génératifs audio à grande échelle pour une seule modalité (parole, sons ou musique), en adoptant des modèles génératifs plus puissants et en élargissant les jeux de données utilisés. Toutefois, ces modèles présentent des limites importantes en matière de contrôle : les modèles de génération de parole ne parviennent pas à synthétiser de nouveaux styles à partir de descriptions textuelles et sont restreints en termes de couverture de domaines, comme les environnements extérieurs ; les modèles de génération de sons offrent uniquement un contrôle grossier basé sur des descriptions telles que « une personne qui parle », et produisent souvent des voix humaines indistinctes ou murmurées. Ce papier présente Audiobox, un modèle unifié fondé sur le principe du flow-matching, capable de générer diverses modalités audio. Nous proposons des méthodes d’entrée basées sur la description et sur des exemples afin d’améliorer le contrôle et de uniformiser les paradigmes de génération de parole et de sons. Lors de la génération de parole, nous permettons un contrôle indépendant sur le transcript, le style vocal et d’autres styles audio. Pour améliorer la généralisation du modèle malgré un faible nombre d’étiquettes, nous adaptons une objectif d’imputation auto-supervisée afin de pré-entraîner sur de grandes quantités d’audio non étiqueté. Audiobox établit de nouveaux étalons dans la génération de parole et de sons (similitude de 0,745 sur Librispeech pour la TTS zéro-shot ; FAD de 0,77 sur AudioCaps pour la génération sonore à partir de texte) et ouvre la voie à de nouvelles méthodes de génération d’audio avec des styles vocaux et acoustiques nouveaux. Nous intégrons également des Bespoke Solvers, qui accélèrent la génération de plus de 25 fois par rapport au solveur ODE par défaut pour le flow-matching, sans perte de performance sur plusieurs tâches. Une démonstration en ligne est disponible à l’adresse suivante : https://audiobox.metademolab.com/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Audiobox : Génération audio unifiée à l’aide de promts en langage naturel | Articles | HyperAI