HyperAI

Réalisez Un Mixage Et Un Clonage Multitimbraux En 3 Secondes ! Le Didacticiel F5/E2 TTS Est En Ligne ; L'ensemble De Données De Dialogue Psychologique PsyDTCorpus 5k Est Publié, Simulant Avec Précision Le Style De Langage Des Conseillers Psychologiques.

特色图像

Grâce au développement rapide du clonage vocal, l’IA a pu simuler des effets vocaux de plus en plus réalistes, mais il reste encore de nombreux défis à relever dans l’apprentissage à échantillon zéro et le contrôle multi-émotions.

Plus tôt cette année, E2 TTS a mis en œuvre une méthode simplifiée de génération de texte en parole qui remplit simplement l'entrée de texte à la même longueur que la parole d'entrée avec des marqueurs de remplissage, puis effectue une débruitage pour générer la parole. Récemment, F5 TTS a fait référence à cette méthode et a encore amélioré les performances du modèle basé sur la méthode de génération non autorégressive de correspondance de flux, de sorte qu'il prend non seulement en charge la synthèse multilingue, mais peut également ajuster les émotions et la vitesse de parole en fonction du contenu du texte, rendant la synthèse vocale de texte long plus délicate et plus fluide.

Afin de permettre à chacun de découvrir les effets de génération sonore du F5 TTS et du E2 TTS,Le site officiel hyper.ai a lancé le tutoriel d'intégration F5/E2 TTS, qui peut être cloné en un clic~

Exécutez en ligne :https://go.hyper.ai/SZxqv

Du 4 au 8 novembre, le site officiel de hyper.ai est mis à jour :

* Ensembles de données publiques de haute qualité : 10

* Sélection de tutoriels de haute qualité : 3

* Sélection d'articles communautaires : 4 articles

* Entrées d'encyclopédie populaire : 5

* Principales conférences avec date limite en novembre : 6

Visitez le site officiel : hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données sur les types de cheveux Ensemble de données sur les types de cheveux

L'ensemble de données sur les types de cheveux est un ensemble de données d'images permettant de classer diverses coiffures. Il contient des images de haute qualité de 4 types de coiffures : droites, ondulées, bouclées et dreadlocks, avec un total de 1 992 images. Cet ensemble de données permet de former des modèles d’apprentissage automatique pour identifier et classer les types de cheveux.

Utilisation directe :https://go.hyper.ai/aXYcj

Exemples d'images de jeux de données

2. Ensemble de données de suppression du cloud public AllClear

L'ensemble de données AllClear est actuellement le plus grand ensemble de données publiques sur la suppression des nuages, contenant 23 742 régions d'intérêt (ROI) réparties à l'échelle mondiale couvrant divers modèles d'utilisation des terres et un total de 4 millions d'images. Il répond au manque de repères et de données de formation diverses dans la recherche sur la suppression des nuages.

Utilisation directe :https://go.hyper.ai/e2BYC

Diagramme de distribution des données

3. Ensemble de données arabes manuscrites de Muharaf

L'ensemble de données Muharaf est un ensemble de données d'apprentissage automatique axé sur la reconnaissance des caractères arabes manuscrits. Cet ensemble de données contient plus de 1,6 000 images de pages manuscrites historiques transcrites par des experts arabes. Chaque image de document est accompagnée des coordonnées spatiales du polygone de ses lignes de texte et d'informations sur les éléments de base de la page.

Utilisation directe :https://go.hyper.ai/NN2UR

Exemple de jeu de données Muharaf

4. Ensemble de données spectroscopiques chimiques multimodales

L'ensemble de données contient des données spectrales simulées de 1H-RMN, 13C-RMN, HSQC-RMN, infrarouge et de spectrométrie de masse (modes ions positifs et négatifs) de 790 000 molécules extraites de réactions chimiques dans les données de brevets. Il peut intégrer des informations provenant de multiples modalités spectrales et simuler les méthodes utilisées par les experts humains pour analyser les structures moléculaires, ayant ainsi le potentiel d'automatiser l'analyse structurelle et de simplifier le processus de découverte moléculaire de la synthèse à la détermination de la structure.

Utilisation directe :https://go.hyper.ai/Z7zlr

Aperçu des données

5. Ensemble de données de référence pour l'évaluation multimodale médicale GMAI-MMBench

GMAI-MMBench est un benchmark d'évaluation multimodal conçu pour faire progresser le domaine de l'intelligence artificielle médicale générale. Il contient 284 ensembles de données provenant de différentes sources, impliquant 38 modalités d'imagerie médicale et 18 tâches cliniquement pertinentes, couvrant 18 services médicaux différents, et est évalué à 4 granularités perceptuelles différentes, considérant ainsi les performances des LVLM à partir de plusieurs dimensions.

Utilisation directe :https://go.hyper.ai/FL799

Schéma de la structure de l'ensemble de données

6. Ensemble de données de jumeaux numériques de conseillers psychologiques PsyDTCorpus

L'objectif principal de l'ensemble de données PsyDTCorpus est de simuler le style de langage et les techniques de conseil de conseillers psychologiques spécifiques pour soutenir le développement et la formation du modèle jumeau numérique du conseiller psychologique SoulChat2.0. Cet ensemble de données contient 5 000 données de conversation de haute qualité sur la santé mentale avec le style de langage du conseiller et les méthodes d'application de la technique thérapeutique.

Utilisation directe :https://go.hyper.ai/hGi4O

Distribution des sujets de données

7. Ensemble de données audio de chant GTSinger

Cet ensemble de données est un grand ensemble de données de chant open source et de haute qualité qui contient 80,59 heures de chant enregistrées dans des studios professionnels. Ces chansons sont interprétées par 20 chanteurs professionnels dans 9 langues différentes, dont le chinois, l'anglais, le japonais, le coréen, etc., offrant aux chercheurs une bibliothèque de ressources avec des timbres et des styles extrêmement riches.

Utilisation directe :https://go.hyper.ai/wBcBz

8. Ensemble de données de simulation du catalyseur OC22

Cet ensemble de données est un ensemble de données de simulation de catalyseur, à savoir l'ensemble de données Open Catalyst 2022 (OC22). Cet ensemble de données étend et complète l'ensemble de données OC20, contient des structures de catalyseurs plus complexes et de nouveaux types de réactions, et fournit des données plus riches pour la formation et le test des modèles d'IA.

Utilisation directe :https://go.hyper.ai/M8Cpn

9. Ensemble de données open source sur les matériaux quantiques OQMD

L'ensemble de données OQMD contient les propriétés thermodynamiques et structurelles de plus de 1,22 million de matériaux calculées à l'aide de la théorie de la fonctionnelle de la densité (DFT). Les données de l'ensemble de données proviennent de la base de données sur la structure cristalline inorganique (ICSD), y compris les calculs d'énergie totale DFT de près de 300 000 composés et les modifications de structures cristallines courantes.

Utilisation directe :https://go.hyper.ai/dGOKs

10. Base de données en ligne sur les matériaux du projet Matériaux

Les données de la base de données du projet Matériaux comprennent la structure cristalline et les caractéristiques énergétiques, ainsi que des informations détaillées telles que la structure électronique et les propriétés thermodynamiques. Cet ensemble de données vise à utiliser des calculs de premiers principes à haut débit pour fournir des données de performance complètes, des informations structurelles et des résultats de simulation informatique pour plus d'un million de matériaux inorganiques, accélérant ainsi le processus de découverte et d'innovation de nouveaux matériaux.

Utilisation directe :https://go.hyper.ai/tGIVs

Pour plus d'ensembles de données publics, veuillez visiter:

https://hyper.ai/datasets

Tutoriels publics sélectionnés

1. AnyText génération et édition de texte visuel multilingue

AnyText est un modèle de génération et d'édition de texte visuel multilingue. Il peut prendre en charge la génération de texte dans plusieurs langues telles que le chinois, l'anglais, le japonais, le coréen, etc., et prend également en charge l'édition du contenu du texte dans les images d'entrée. La technologie de génération de texte impliquée dans ce modèle offre des possibilités pour de nouvelles applications AIGC telles que les affiches de commerce électronique, la conception de logos, les graffitis créatifs et les émoticônes.

Cliquez sur le lien ci-dessous, suivez les étapes du didacticiel pour cloner et démarrer le conteneur, puis vous pourrez utiliser votre créativité pour concevoir des images.

Exécutez en ligne :https://go.hyper.ai/uMcNa

Exemple d'interface de modèle

2. F5/E2 TTS clone n'importe quel son en seulement 3 secondes

Ce tutoriel comprend une utilisation de démonstration des modèles F5 TTS et E2 TTS. F5 TTS peut générer rapidement un discours naturel, fluide et fidèle au texte original grâce à un apprentissage sans interruption sans supervision supplémentaire. E2 TTS peut générer la séquence vocale entière à la fois, améliorant considérablement la vitesse de génération tout en maintenant une sortie vocale de haute qualité.

Ce projet peut générer une interface interactive front-end via l'interface Gradio. Les modèles et dépendances pertinents ont été déployés. Vous pouvez expérimenter le clonage sonore en le démarrant en un clic.

Exécutez en ligne :https://go.hyper.ai/SZxqv

Exemple d'interface de tutoriel

3. Démo de génération d'images de grande taille avec Stable-Diffusion-3.5

Le modèle Stable Diffusion 3.5 Large est un modèle texte-image de générateur de diffusion multimodale (MMDiT) présentant des améliorations significatives de la qualité de l'image, de la typographie, de la compréhension des invites complexes et de l'efficacité des ressources. Sa taille massive de 8 milliards de paramètres offre des capacités de génération d'images de niveau professionnel, particulièrement adaptées aux besoins de génération d'images haute résolution.

Ce tutoriel a déployé l'environnement et vous pouvez générer directement des images haute résolution selon les instructions du tutoriel.

Exécutez en ligne :https://go.hyper.ai/w5k5V

Exemple d'image générée par un grand modèle de diffusion stable 3.5

💡Nous avons également créé un groupe d'échange de tutoriels Stable Diffusion. Bienvenue aux amis pour scanner le code QR et commenter [tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application ~

Articles de la communauté

1. Couvre presque le tableau périodique des éléments ! Meta publie un ensemble de données open source OMat24, contenant 110 millions de résultats de calcul DFT

Récemment, Meta a publié l'ensemble de données open source à grande échelle Open Materials 2024 et un ensemble de modèles pré-entraînés de support. Parmi eux, l'ensemble de données OMat24 contient plus de 110 millions de résultats de calcul de théorie fonctionnelle de la densité axés sur la diversité structurelle et compositionnelle. L'ensemble de données est désormais disponible sur le site officiel d'HyperAI. Cet article est une interprétation détaillée et un partage du document de recherche.

Voir le rapport complet :https://go.hyper.ai/3wP7R

2. Bilan des activités 丨Université Jiaotong de Shanghai/Université du Zhejiang/Université Tsinghua/OpenBayes De nombreux experts, couvrant les soins médicaux/l'information géographique/les systèmes complexes urbains/les nouveaux paradigmes de la recherche scientifique

Lors du COSCon'24, HyperAI, en tant que communauté coproductrice, a organisé un forum d'IA open source en direction de l'IA pour la science. Des experts et des universitaires de l'Université Jiao Tong de Shanghai, de l'Université du Zhejiang, de l'Université Tsinghua et d'OpenBayes Bayesian Computing ont partagé leurs points de vue sur de multiples aspects, notamment l'intelligence artificielle médicale, l'intelligence artificielle de l'information géographique, la plate-forme cloud de calcul intelligent de recherche scientifique et les systèmes complexes urbains pilotés par l'IA. Cet article est une revue des points forts du forum. Cliquez ici pour une couverture détaillée.

Voir le récapitulatif de l'événement :https://go.hyper.ai/s2RQU

3. J'ai reçu un deuxième investissement de NVIDIA ! La société pharmaceutique d'IA Terray finalise un financement de 120 millions de dollars américains pour créer le plus grand ensemble de données chimiques au monde

La société pharmaceutique d'IA Terray Therapeutics a finalisé un tour de financement de série B de 120 millions de dollars mené par NVentures, la branche de capital-risque de Nvidia, et le nouvel investisseur Bedford Ridge Capital. Il s’agit également du deuxième investissement de Nvidia dans Terray. L'entreprise a également construit le plus grand ensemble de données chimiques au monde et a combiné l'IA avec des expériences humides pour former une boucle fermée du côté des données. Cliquez ici pour une explication détaillée.

Voir le rapport complet :https://go.hyper.ai/AWojF

4. Aidez au dépistage initial de la dépression! L'équipe de l'Université Jiao Tong de Shanghai construit une clinique psychologique Agent. Le premier article de l'article est présenté en ligne sous forme de démonstration et partage les points forts techniques.

Dans le quatrième épisode de la série en direct « Meet AI4S », Lan Kunyao, titulaire d'un doctorat, du Cross-Media Language Intelligence Laboratory de l'Université Jiao Tong de Shanghai, a prononcé un discours intitulé « Plateforme de diagnostic et de consultation en santé mentale basée sur de grands agents modèles ». Il a présenté en détail les étapes d’utilisation, les points forts techniques et les projets futurs de la clinique psychologique. Cet article est une transcription des points saillants du discours, y compris une démonstration de la clinique psychologique intelligente. Cliquez pour le regarder rapidement.

Voir le rapport complet :https://go.hyper.ai/CHhKC

Articles populaires de l'encyclopédie

1. Modèle de transformateur

2. Auto-encodeur variationnel VAE

3. Réseaux de neurones artificiels

4. Front de Pareto

5. Compréhension linguistique multitâche à grande échelle (MMLU)

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques

* Comprend plus de 400 tutoriels en ligne classiques et populaires

* Interprétation de plus de 100 cas d'articles AI4Science

* Prise en charge de plus de 500 termes de recherche associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Enfin, je recommande un « Programme d’incitation aux créateurs ». Les amis intéressés peuvent scanner le code QR pour participer !