Brisez Le Goulot D’étranglement De La Production D’articles Longs De Dizaines De Milliers De Mots ! L'Université Tsinghua Ouvre Le Jeu De Données LongWriter-6k ; 7 Conférences CCF Classe A Sont Sur Le Point De Fermer

Bien que le modèle actuel à contexte long puisse gérer une entrée de texte massive, il est incapable de générer un contenu long en raison du manque d'exemples de sortie longs. Pour résoudre ce problème,Une équipe de recherche de l'Université Tsinghua a créé l'ensemble de données LongWriter-6k, capable d'étendre la taille maximale de la fenêtre de sortie des grands modèles à plus de 10 000 mots !
Avec l'aide du modèle formé par LongWriter-6k, il peut non seulement générer des romans passionnants avec des hauts et des bas dans l'intrigue et une longueur super longue dans la création de romans, permettant aux lecteurs de s'immerger dans un monde littéraire grandiose ; Dans la recherche universitaire, il peut également générer des rapports de recherche détaillés et des revues d'articles, fournissant ainsi de riches documents de référence aux chercheurs scientifiques.
Le site Web officiel hyper.ai a désormais lancé le « LongWriter-6k long context output dataset », qui prend également en charge l'utilisation en ligne.Faites défiler vers le bas pour obtenir le lien~
Du 19 au 23 août, le site officiel de hyper.ai est mis à jour :
* Ensembles de données publiques de haute qualité : 10
* Tutoriels sélectionnés de haute qualité : 2
* Sélection d'articles communautaires : 2 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec date limite en septembre : 7
Visitez le site officiel :hyper.ai
Ensembles de données publiques sélectionnés
1. Ensemble de données de sortie de contexte long LongWriter-6k
L'ensemble de données contient 6 000 données SFT avec une longueur de sortie de 2 000 à 32 000 mots (y compris l'anglais et le chinois), qui peuvent prendre en charge la formation de LLM et étendre sa taille de fenêtre de sortie maximale à plus de 10 000 mots.
Utilisation directe :https://go.hyper.ai/77byR
2. Ensemble de données d'évolution du script Oracle-Bone EVOBC
L'ensemble de données contient des textes anciens de six périodes historiques que les chercheurs ont collectés systématiquement à partir de documents et de sites Web faisant autorité, et se compose de 229 170 images représentant 13 714 catégories de caractères différentes.
Utilisation directe :https://go.hyper.ai/oe5fU
3. Ensemble de données de reconnaissance osseuse Oracle HUST-OBS
L'ensemble de données contient plus de 140 000 images provenant de 3 sources différentes, notamment des livres, des sites Web et des bases de données existantes, ce qui en fait l'un des plus grands ensembles de données d'identification et de décryptage OBS à ce jour.
Utilisation directe :https://go.hyper.ai/bXxx1
4. Ensemble de données de réglage fin des instructions nettoyées par Alpaca
L'ensemble de données Alpaca-Cleaned est une version nettoyée de l'ensemble de données Alpaca original publié par l'Université de Stanford en 2024. Cet ensemble de données corrige certains problèmes de l'Alpaca original, tels que des réponses hallucinatoires, des instructions fusionnées, des sorties vides et des champs de saisie incohérents, améliorant ainsi la qualité et la cohérence des données.
Utilisation directe :https://go.hyper.ai/yNlAa
5. Ensemble de données de conversation médicale du chatbot médical Al
Il s’agit d’un ensemble de données expérimentales conçu pour exécuter des chatbots médicaux, qui contient 256 916 conversations entre patients et médecins.
Utilisation directe :https://go.hyper.ai/kaGzv
6. Ensemble de données d'instances d'images à grande échelle Openstory++
Openstory++ est conçu pour résoudre le problème selon lequel les modèles de génération d'images existants ont du mal à maintenir la cohérence des instances dans des contextes de texte longs. Il combine des annotations au niveau de l'instance d'images et de textes, fournissant une ressource riche qui lui permet de générer des images avec une grande cohérence dans le contexte de textes longs.
Utilisation directe :https://go.hyper.ai/no3E7
7. Ensemble de données médicales multimodales à grande échelle MedTrinity-25M
MedTrinity-25M contient plus de 25 millions d'images médicales couvrant 10 modalités d'imagerie et annotées avec plus de 65 maladies. Cet ensemble de données contient non seulement de riches annotations globales et locales, mais intègre également des annotations d'informations à plusieurs niveaux dans plusieurs modalités (telles que CT, IRM, rayons X, etc.). Cet ensemble de données fournira un excellent support pour les tâches multimodales telles que le traitement d'images médicales, la génération de rapports, la classification et la segmentation, tout en favorisant la pré-formation de modèles d'intelligence artificielle à base médicale.
Utilisation directe :https://go.hyper.ai/JCSJP
8. 1920 Raider Waite Tarot Ensemble de données d'images de tarot
Cet ensemble de données contient des images et des descriptions textuelles associées de 78 cartes du jeu de tarot original Rider-Waite, offrant aux chercheurs et aux artistes une riche ressource pour explorer l'art et le symbolisme des cartes de tarot, et peut être utilisé pour former des modèles afin de générer des images de style tarot.
Utilisation directe :https://go.hyper.ai/8bd2R
9. Base de données d'évaluation de la qualité des images à grande échelle de l'exploration de Waterloo
La base de données contient 4 744 images naturelles originales et 94 880 images déformées créées à partir de ces images originales, qui peuvent être utilisées pour tester la capacité de généralisation des modèles d'évaluation de la qualité d'image.
Utilisation directe :https://go.hyper.ai/m5mhN
10. Ensemble de données de référence pour l'évaluation de la génération de code vérifié SWE-bench
Le benchmark est une version améliorée (sous-ensemble) du SWE-bench existant, conçu pour évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels du monde réel.
Utilisation directe :https://go.hyper.ai/oxOBY
Pour plus d'ensembles de données publics, veuillez visiter :
Tutoriels publics sélectionnés
1. Démo du flux de travail ComfyUl AuraFlow Wenshengtu
Ce modèle atteint des résultats de pointe sur GenEval, avec une efficacité de traitement supérieure et une meilleure présentation des détails sur les tâches de graphiques de texte. Ce tutoriel utilise ComfyUI pour déployer le modèle graphique AuraFlow. Le modèle et les configurations d'environnement associées ont été construits et peuvent être clonés pour l'inférence en un seul clic.
Utilisation directe :https://go.hyper.ai/KpI4B
2. Whisper Web, outil de reconnaissance vocale en ligne
Whisper utilise ML pour la reconnaissance vocale et peut être accéléré à l'aide de WebGPU. Il prend en charge le téléchargement de fichiers audio en ligne/local et l'enregistrement instantané dans plus de 100 langues. Le texte reconnu peut être exporté aux formats de fichiers TXT et JSON, et peut également être directement traduit en anglais. Ce tutoriel est basé sur le projet open source Whisper Web sur GitHub et s'exécute directement dans le navigateur à l'aide de Whisper.
Utilisation directe :https://go.hyper.ai/N3iwm
Articles de la communauté
Récemment, Lv Haiquan, Sun Rong, Zhang Kai de l'Université du Shandong et Mei Qi de l'Université médicale du Shanxi, en collaboration avec des équipes de recherche d'Helix Matrix, ont réalisé une percée. En utilisant la technologie d’apprentissage automatique et en se basant sur l’analyse de l’ARNm, ils ont développé avec succès une nouvelle méthode, la signature BCSC, pour évaluer les caractéristiques des cellules souches cancéreuses dans des échantillons de patientes atteintes d’un cancer du sein primaire. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/SPAjK
Lors de l'école d'été sur l'IA pour la bio-ingénierie de l'Université Jiao Tong de Shanghai, le Dr Zhou Bingxin de l'Université Jiao Tong de Shanghai a partagé avec tout le monde la définition, les avantages et les applications de pointe des réseaux neuronaux graphiques dans des domaines tels que la prédiction et la génération de protéines sous le thème « Réseaux neuronaux graphiques et représentation de la structure des protéines ». Cet article est une transcription des points forts partagés par le Dr Zhou Bingxin.
Voir le rapport complet :https://go.hyper.ai/GjXi5
Une équipe de recherche de l'Université du Zhejiang a proposé InstructProtein, qui utilise des instructions de connaissances pour aligner le langage des protéines sur le langage humain, démontrant ainsi la capacité d'intégrer des séquences biologiques dans de grands modèles linguistiques. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/GjXi5
Articles populaires de l'encyclopédie
1. Test t apparié
2. Fusion de tri réciproque RRF
3. Front de Pareto
4. Auto-encodeur variationnel VAE
5. Augmentation des données
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :