HyperAI

Résumé

L’audio est une composante essentielle de notre vie quotidienne, mais sa création exige souvent des compétences spécialisées et est chronophage. Au cours de la dernière année, les communautés de recherche ont réalisé des progrès significatifs dans l’amélioration des performances des modèles génératifs audio à grande échelle pour une seule modalité (parole, sons ou musique), en adoptant des modèles génératifs plus puissants et en élargissant les jeux de données utilisés. Toutefois, ces modèles présentent des limites importantes en matière de contrôle : les modèles de génération de parole ne parviennent pas à synthétiser de nouveaux styles à partir de descriptions textuelles et sont restreints en termes de couverture de domaines, comme les environnements extérieurs ; les modèles de génération de sons offrent uniquement un contrôle grossier basé sur des descriptions telles que « une personne qui parle », et produisent souvent des voix humaines indistinctes ou murmurées. Ce papier présente Audiobox, un modèle unifié fondé sur le principe du flow-matching, capable de générer diverses modalités audio. Nous proposons des méthodes d’entrée basées sur la description et sur des exemples afin d’améliorer le contrôle et de uniformiser les paradigmes de génération de parole et de sons. Lors de la génération de parole, nous permettons un contrôle indépendant sur le transcript, le style vocal et d’autres styles audio. Pour améliorer la généralisation du modèle malgré un faible nombre d’étiquettes, nous adaptons une objectif d’imputation auto-supervisée afin de pré-entraîner sur de grandes quantités d’audio non étiqueté. Audiobox établit de nouveaux étalons dans la génération de parole et de sons (similitude de 0,745 sur Librispeech pour la TTS zéro-shot ; FAD de 0,77 sur AudioCaps pour la génération sonore à partir de texte) et ouvre la voie à de nouvelles méthodes de génération d’audio avec des styles vocaux et acoustiques nouveaux. Nous intégrons également des Bespoke Solvers, qui accélèrent la génération de plus de 25 fois par rapport au solveur ODE par défaut pour le flow-matching, sans perte de performance sur plusieurs tâches. Une démonstration en ligne est disponible à l’adresse suivante : https://audiobox.metademolab.com/

Résumé

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Audiobox : Génération audio unifiée à l’aide de promts en langage naturel

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Audiobox : Génération audio unifiée à l’aide de promts en langage naturel

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Audiobox : Génération audio unifiée à l’aide de promts en langage naturel

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan