Choix Hebdomadaires De L'éditeur | Lancement De L'ensemble De Données De Référence FewJoint, Le Département De Supervision Du Ministère Des Sciences Et De La Technologie Publie De Nouvelles Réglementations Sur L'ia

L'apprentissage en quelques coups fait référence à la capacité d'apprendre et de maîtriser de nouvelles tâches avec très peu d'échantillons, tout comme les humains. Ce domaine est devenu un sujet brûlant dans la communauté de l’apprentissage automatique et est considéré comme l’une des directions clés pour rapprocher l’intelligence artificielle de l’intelligence humaine.L'Institut de technologie de Harbin a lancé l'ensemble de données de référence FewJoint, qui fournit une référence d'évaluation publique pour l'évaluation de petits échantillons de PNL.Cet ensemble de données est désormais disponible sur hyper.ai. D'autres ensembles de données NLP pour la formation de grands modèles chinois sont disponibles en téléchargement sur hyper.ai. Jetons un oeil !
Du 29 janvier au 2 février, le site officiel de hyper.ai est mis à jour :
* Ensembles de données publiques de haute qualité : 10
* Étuis en papier AI4S : 3
* Entrées d'encyclopédie populaire : 10
Visitez le site officiel :hyper.ai
Ensembles de données publiques sélectionnés
1. Ensemble de données de référence à petit échantillon commun
L'ensemble de données de référence FewJoint est une collection de corpus d'utilisateurs réels et de corpus construits par des experts à partir de la plate-forme ouverte iFlytek AIUI (dans un rapport d'environ 3:7). Il couvre 59 domaines réels et constitue actuellement l’un des ensembles de données de conversation contenant le plus de domaines.
Utilisation directe :
https://hyper.ai/datasets/29239
2. Ensemble de données de gouvernance de grands modèles chinois de 100 PoisonMpts
100 PoisonMpts est le premier ensemble de données open source de gouvernance de modèles linguistiques chinois à grande échelle du secteur. Des dizaines d'experts et d'universitaires renommés forment le premier groupe d'ingénieurs d'annotation « 100 bouteilles de poison pour l'IA ». Les annotateurs ont chacun posé 100 questions pièges qui ont induit des réponses biaisées et discriminatoires, et ont annoté les réponses du grand modèle, complétant l'attaque et la défense avec l'IA de « l'empoisonnement » à la « détoxification ».
Utilisation directe :
https://hyper.ai/datasets/29203
3. Ensemble de données de référence pour l'évaluation de la compréhension de la langue chinoise CLUE
CLUE (A Chinese Language Understanding Evaluation Benchmark) est un ensemble de données utilisé pour la formation, la vérification et le test des tâches de compréhension de la grammaire chinoise.
Utilisation directe :
https://hyper.ai/datasets/29094
4. Wikipédia Ensemble de données Wikipédia
Cet ensemble de données est construit à partir de vidages Wikipédia, avec un sous-ensemble par langue et chaque sous-ensemble concaténé avec une division de colonne. Chaque exemple contient le contenu d'un article Wikipédia complet, nettoyé pour supprimer le balisage et les parties indésirables (comme les « références », etc.).
Utilisation directe :
https://hyper.ai/datasets/28528
5. Corpus Internet chinois du CCI
Le Chinese Corpora Internet (CCI) est constitué de sources fiables et de haute qualité provenant de sites Internet de Chine continentale. Le CCI subit un nettoyage et une déduplication rigoureux des données et effectue des tests et un filtrage ciblés sur la qualité du contenu.
Utilisation directe :
https://hyper.ai/datasets/29186
6. PCU Ensemble de données de segmentation de mots chinois simplifiés
L'ensemble de données SIGHAN 2005, l'évaluation internationale de segmentation automatique des mots chinois (évaluation SIGHAN en abrégé), intègre des ensembles de données de segmentation de mots provenant de plusieurs institutions. Cet ensemble de données a été publié conjointement par Microsoft Research China, l'Université de Pékin, l'Université de la ville de Hong Kong et l'Academia Sinica à Taiwan, et est utilisé pour la formation et l'évaluation des modèles de segmentation de mots chinois. Parmi eux, PKU est un ensemble de données de segmentation de mots chinois simplifiés.
Utilisation directe :
https://hyper.ai/datasets/29168
7. Poésie chinoise La base de données la plus complète de poésie classique chinoise
Cet ensemble de données est actuellement la base de données la plus complète de la littérature classique chinoise, comprenant 55 000 poèmes Tang, 260 000 poèmes Song, 21 000 poèmes Song et d'autres écrits classiques. Les poètes comprennent près de 14 000 poètes anciens des dynasties Tang et Song, et 1 500 paroliers anciens de la dynastie Song. Les données proviennent d'Internet.
Utilisation directe :
https://hyper.ai/datasets/29257
8. Ensemble de données de compréhension de lecture en chinois PD&CFT
Cet ensemble de données est le premier ensemble de données de compréhension de lecture en chinois, qui comprend le contenu textuel du Quotidien du Peuple et du Conte de fées pour enfants (PD&CFT).
Utilisation directe :
https://hyper.ai/datasets/29260
Pour des ensembles de données plus mis à jour cette semaine, veuillez visiter:
ScienceAI Études de cas sélectionnées
Une équipe de recherche du premier hôpital affilié de l'université Sun Yat-sen et de l'Institut de technologie avancée de l'USTC a proposé un modèle d'apprentissage profond - traitement du signal graphique-réseaux convolutifs graphiques (GSP-GCN), qui utilise des données EEG liées aux événements obtenues à partir de tâches spécifiques impliquant la régulation du tonus pour diagnostiquer la maladie de Parkinson. L'article correspondant a été publié dans la revue « Nature ».
Voir le rapport complet :
Le 21 décembre 2023, le Département de supervision du ministère des Sciences et de la Technologie a publié les « Lignes directrices pour une conduite responsable de la recherche (2023) », qui réglementent l'application de l'IA et d'autres technologies dans la recherche scientifique en réponse à des questions brûlantes d'intérêt social telles que l'intelligence artificielle et la publication de résultats majeurs.
Voir le rapport complet :
Des chercheurs de l'Institut des semi-conducteurs de l'Académie chinoise des sciences ont considéré la solution de la structure d'expression comme un problème de classification et l'ont résolu grâce à l'apprentissage supervisé, en proposant un réseau symbolique appelé DeepSymNet pour représenter les expressions symboliques. Comparé à plusieurs algorithmes SR populaires basés sur l'apprentissage supervisé, DeepSymNet utilise des étiquettes plus courtes, réduit l'espace de recherche de prédiction et améliore la robustesse de l'algorithme. Des articles connexes ont été publiés dans la revue « IEEE ».
Voir le rapport complet :
Articles populaires de l'encyclopédie
1. Apprentissage par représentation
2. Mémoire à long et à court terme Mémoire à long terme
3. La méthode des moindres carrés
4. Grille de calcul Grille de calcul
5. Fusion de rang réciproque (RRF)
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous aimeriez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 200 ensembles de données publiques
* Comprend plus de 300 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :