HyperAI

Sopro est un modèle léger de synthèse vocale à texte (TTS) en anglais, développé comme projet personnel par Samuel Vitorino. Le nom « Sopro » provient du mot portugais signifiant « souffle » ou « souffle de voix », évoquant l’essence même de la parole. Contrairement aux architectures courantes basées sur les Transformers, Sopro repose sur des convolutions dilatées (inspirées de WaveNet) associées à des couches d’attention croisée légères, ce qui en fait un modèle plus compact et moins exigeant en ressources. Bien que Sopro ne soit pas au niveau de l’état de l’art (SOTA) dans tous les cas d’usage ou pour toutes les voix, il s’agit d’un projet remarquable pour sa faible consommation de ressources : entraîné sur une seule GPU L40S, il démontre qu’un bon modèle TTS peut être développé avec un budget limité. L’entraînement a été effectué sur un jeu de données pré-tokenisé, mais l’audio brut a été supprimé en raison de sa taille importante. Cette décision a eu un impact sur la qualité de l’emboîtement vocal (speaker embedding), car certaines subtilités de la voix se perdent lorsqu’on compresse l’audio via un codec neuronal en espace discret. Parmi les fonctionnalités clés, on retrouve la possibilité de clonage vocal zéro-shot (sans besoin d’échantillons de la voix cible), une génération rapide et une architecture optimisée pour des performances élevées sur matériel domestique. L’outil est disponible via PyPI ou directement depuis le dépôt GitHub, avec des instructions simples d’installation. Une version Docker est également fournie pour une mise en œuvre rapide. Une démonstration interactive est accessible via un serveur web local (http://localhost:8000), facilitant l’expérimentation sans configuration complexe. Le modèle est actuellement limité à environ 32 secondes de génération (400 frames), au-delà desquelles les sorties tendent à s’écarter de la réalité (hallucinations). Cependant, cette limite peut être ajustée, bien que les résultats soient moins fiables. Des améliorations potentielles incluent le cache des états des convolutions pour accélérer la génération, ainsi que l’utilisation de l’audio brut pour enrichir les représentations vocales. L’IA a été utilisée principalement pour concevoir la démonstration web, organiser le code, mener des ablations expérimentales et échafauder des idées. Le développeur espère étendre le modèle à d’autres langues et poursuivre son amélioration. Si ce projet vous intéresse, il invite à soutenir son travail via une donation sur Buy Me a Coffee, afin de pouvoir acquérir davantage de puissance de calcul. En résumé, Sopro est un exemple inspirant de ce qu’on peut accomplir avec créativité, des ressources limitées et une approche rigoureuse. Il ouvre la voie à des solutions TTS accessibles, rapides et efficaces, tout en restant ouvert à l’évolution.

Liens associés

Liens associés

Liens associés

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Command Palette

Un modèle léger de synthèse vocale avec clonage vocal zéro-shot, entraîné en peu de temps et avec peu de ressources

Liens associés

Command Palette

Un modèle léger de synthèse vocale avec clonage vocal zéro-shot, entraîné en peu de temps et avec peu de ressources

Liens associés

Command Palette

Un modèle léger de synthèse vocale avec clonage vocal zéro-shot, entraîné en peu de temps et avec peu de ressources

Liens associés

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.