5,2 000 Étoiles ! Le Super Innovateur Qui Résout Le Dilemme De L'ocr Est Ici ; Le Grand Modèle Médical Multilingue Est Open Source, Le Corpus Et L'ensemble De Données De Référence Sont Disponibles En Téléchargement.

À l’ère actuelle du développement numérique rapide, bien que la technologie OCR (reconnaissance optique de caractères) soit devenue populaire, il existe encore de nombreux goulots d’étranglement. Face à des situations complexes et changeantes, la précision de reconnaissance des modèles OCR traditionnels sera considérablement réduite, et le flux de traitement et les étapes de fonctionnement sont assez lourds, ce qui réduit considérablement l'efficacité du travail.
Le premier modèle OCR universel de bout en bout au monde, GOT-OCR-2.0, a récemment été officiellement rendu open source ! Il résout les limitations de l'OCR traditionnel en termes de mauvaise qualité d'image, d'arrière-plan complexe et de reconnaissance de texte manuscrit.Le modèle fournit désormais un didacticiel de démonstration sur le site officiel hyper.ai. Vous pouvez ignorer les étapes d'installation compliquées et le démarrer directement en le clonant.
Exécutez en ligne :https://go.hyper.ai/JVVKQ
Du 1er au 12 octobre, le site officiel hyper.ai est mis à jour :
* Sélection de tutoriels de haute qualité : 3
* Ensembles de données publiques de haute qualité : 10
* Sélection d'articles communautaires : 5 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec date limite en octobre : 5
Visitez le site officiel :hyper.ai
Tutoriels publics sélectionnés
1. GOT-OCR-2.0 Le premier modèle OCR universel de bout en bout au monde
GOT-OCR-2.0 est un modèle de bout en bout unifié basé sur la théorie générale de l'OCR, axé sur l'amélioration de la précision et de l'efficacité de la reconnaissance optique de caractères (OCR). Il adopte une architecture intégrée capable de gérer efficacement la diversité et la complexité du texte. GOT-OCR 2.0 prend non seulement en charge la reconnaissance de texte de scène, mais peut également traiter des documents de plusieurs pages, apportant plus de flexibilité au domaine OCR. Exécutez le conteneur conformément au didacticiel et copiez directement l’adresse de l’API pour expérimenter l’inférence du modèle.
Utilisation directe :https://go.hyper.ai/JVVKQ

2. Outil d'éclairage d'image IC-Light, remplacement de fusion d'arrière-plan naturel
IC-Light signifie Imposing Consistent Light, un projet qui vise à réaliser un rééclairage d'image grâce à des modèles d'apprentissage automatique. Il fournit deux principaux types de modèles : le modèle d'éclairage conditionnel au texte et le modèle conditionnel à l'arrière-plan, qui ajustent l'éclairage de l'image au premier plan en fonction de l'indice de texte ou du contenu de l'arrière-plan respectivement.
Ce projet peut générer une interface interactive front-end via l'interface Gradio. Les modèles et dépendances pertinents ont été déployés et peuvent être démarrés en un clic.
Utilisation directe :https://go.hyper.ai/1Y0PQ

3. Démonstration de l'outil de clonage vocal Fish Speech v1.4
Fish Speech est un modèle de synthèse vocale (TTS) développé par Fish Audio en 2024, capable de générer des paroles de haute qualité et au son naturel. Après avoir été mis à niveau vers la version v1.4, ce modèle a subi environ 700 000 heures de formation sur les données et maîtrise désormais huit langues, dont le chinois, le japonais et l'anglais. Ses capacités de traitement du langage sont proches des niveaux humains et ses expressions vocales sont riches et variées.
Ce tutoriel a mis à jour le modèle vers la dernière version et déployé l'environnement. Vous pouvez effectuer directement des tâches de clonage vocal ou de synthèse vocale selon les instructions du didacticiel.
Utilisation directe :https://go.hyper.ai/t7O8m
Ensembles de données publiques sélectionnés
1. Corpus médical multilingue à grande échelle MMedC
L'ensemble de données contient environ 25,5 milliards de jetons de données de prédiction médicale, couvrant 6 langues principales : anglais, chinois, japonais, français, russe et espagnol, et la prise en charge d'autres langues est toujours en cours de mise à jour et d'extension.
Utilisation directe :https://go.hyper.ai/jXv0r

2. Ensemble de données de référence du test d'aptitude médicale multilingue MMedBench
L'ensemble de données est conçu pour évaluer le développement de modèles multilingues dans le domaine médical et couvre 6 langues et 21 sous-domaines médicaux. Toutes les questions de MMedBench sont directement dérivées des banques de questions d'examen médical de différents pays, garantissant l'exactitude et la fiabilité de l'évaluation et évitant les biais de compréhension diagnostique causés par les différences dans les directives de pratique médicale dans différents pays.
Utilisation directe :https://go.hyper.ai/8X9xD

3. Ensemble de données de détection du paludisme Lacuna
L'ensemble de données contient un total de 3 925 images de lames de paludisme, dont 2 747 images dans l'ensemble d'entraînement et 1 178 images dans l'ensemble de test. En plus de l'image, la lame sur laquelle l'image a été capturée, la lecture du micromètre de la platine du microscope et les réglages de l'objectif sont enregistrés, avec jusqu'à 40 images capturées par lame.
Utilisation directe :https://go.hyper.ai/9oBFv

4. Ensemble de données d'alignement des préférences humaines HelpSteer2
HelpSteer2 contient environ 10 000 paires de réponses, ce qui est un ordre de grandeur inférieur aux ensembles de données de préférences existants, mais il est très efficace pour former des modèles de récompense. L'ensemble de données vise à former des modèles de récompense qui peuvent guider les grands modèles linguistiques (LLM) pour générer des réponses de haute qualité cohérentes avec les préférences humaines.
Utilisation directe :https://go.hyper.ai/YePhv
5. Ensemble de données de compréhension du langage multilingue et multitâche MMMLU
L'ensemble de données vise à évaluer et à améliorer les performances des modèles d'intelligence artificielle dans différents contextes linguistiques, cognitifs et culturels. Construit sur le benchmark Massive Multi-Task Language Understanding (MMLU), MMMLU est une mesure de bon sens obtenue par des modèles d'IA qui comprend des tâches de 57 domaines différents, allant des connaissances élémentaires aux disciplines professionnelles avancées telles que le droit, la physique, l'histoire et l'informatique.
Utilisation directe :https://go.hyper.ai/TY7aR
6. Ensemble de tests de génération d'amélioration de la récupération de référence FRAMES
L'ensemble de données contient 824 questions multi-sauts difficiles qui nécessitent d'obtenir des informations à partir de 2 à 15 articles Wikipédia. Les questions couvrent des sujets tels que l'histoire, les sports, les sciences, les animaux, la santé, etc., et chaque question est étiquetée avec le type de raisonnement, tel que numérique, tabulaire, contraintes multiples, temporel et post-traitement. L'ensemble de données fournit également la réponse idéale et l'article Wikipédia correspondant à chaque question.
Utilisation directe :https://go.hyper.ai/zp5WQ
7. Ensemble de données de tâches biomédicales de segmentation multi-images MedScribble
L'ensemble de données contient des gribouillis manuscrits de 3 annotateurs collectés par l'équipe de recherche, effectuant 14 tâches de segmentation à partir de 14 ensembles de données de segmentation d'images biomédicales en accès libre différents. MedScrible contient un total de 64 paires de segmentation d'images 2D, chacune avec 3 ensembles d'annotations griffonnées.
Utilisation directe :https://go.hyper.ai/X901T
Ce projet vise à résoudre le problème de la détection d'objets à petit échantillon lorsqu'il existe une différence de domaine significative entre le domaine source et le domaine cible. Il comprend un ensemble de données pour l'évaluation des algorithmes, ainsi que des indicateurs d'ensemble de données tels que le style, la variance inter-classes (ICV) et les limites indéfinissables (IB) pour mesurer les différences de domaine.
Utilisation directe :https://go.hyper.ai/YQsnW
9. CLVR Jaco Play Dataset Ensemble de données de clip de robot télécommandé
Cet ensemble de données est une ressource précieuse pour les scientifiques et les développeurs travaillant dans des domaines tels que la télécommande robotique, le traitement du langage naturel et l'interaction homme-machine. Il fournit 1 085 clips du robot téléopéré Jaco 2 avec les annotations linguistiques correspondantes.
Utilisation directe :https://go.hyper.ai/Xde69
L'ensemble de données Berkeley Cable Routing est un ensemble de données permettant d'étudier les tâches de manipulation robotique à plusieurs étapes, particulièrement appliquées aux tâches de routage de câbles. La tâche nécessite que le robot enfile un câble à travers une série de pinces, ce qui représente le défi d'un scénario complexe de manipulation robotique en plusieurs étapes, comprenant la manipulation d'objets déformables, la fermeture de la boucle de perception visuelle et le traitement de comportements étendus constitués de plusieurs étapes.
Utilisation directe :https://go.hyper.ai/aiML0
Pour plus d'ensembles de données publics, veuillez visiter :
Articles de la communauté
Dans le troisième épisode de la série de diffusion en direct « Meet AI4S », Zhou Ziyi, chercheur postdoctoral au sein du groupe de recherche du professeur Hong Liang à l'Institut des sciences naturelles de l'Université Jiao Tong de Shanghai, a partagé les derniers résultats de recherche de l'équipe sur le thème des « Méthodes d'apprentissage de petits échantillons pour les modèles de langage protéique » et a exploré de nouvelles idées pour l'évolution dirigée assistée par l'IA. Cet article est une transcription des points saillants de son discours, pleine d’informations utiles.
Voir le résumé complet :https://go.hyper.ai/MzXfg
Une équipe de recherche de Google a développé un nouveau modèle bioacoustique des baleines. Le modèle peut identifier huit espèces différentes parmi les 94 espèces de baleines actuellement connues. Cet article est une interprétation et un partage détaillés du document.
Voir le rapport complet :https://go.hyper.ai/1l2HO
L'équipe du professeur Wu Mengyue du laboratoire X-LANCE de l'université Jiao Tong de Shanghai, en collaboration avec l'Institut Tianqiao pour les sciences du cerveau et ThetaAI, a construit un système automatisé de simulation d'agent de dialogue à grand modèle - l'Intelligent Psychological Clinic AMC, pour le diagnostic préliminaire de la dépression. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/AdjI5
Le groupe de recherche de Zheng Shuangjia à l'Université Jiao Tong de Shanghai, en collaboration avec Star Pharma Technology, la faculté de pharmacie de l'Université Sun Yat-sen et l'Université Rice aux États-Unis, a proposé un modèle génératif géométrique profond DynamicBind conçu pour l'amarrage dynamique des protéines, fournissant un nouveau paradigme de recherche basé sur l'apprentissage profond qui prend en compte les changements dynamiques des protéines pour le développement de médicaments à l'ère post-AlphaFold. Cet article est une interprétation détaillée et un partage du document de recherche.
Voir le rapport complet :https://go.hyper.ai/nErwd
David Baker, Demis Hassabis et John M. Jumper ont remporté le prix Nobel de chimie 2024. Demis Hassabis, PDG de DeepMind, a déclaré : « Les meilleurs scientifiques travaillant avec ces outils d'IA seront en mesure d'accomplir un travail incroyable. » David Baker a même déclaré sans détour : « AlphaFold est très inspirant. » Cet article est un rapport détaillé sur les lauréats du prix Nobel de chimie de cette année.
Voir le rapport complet :https://go.hyper.ai/UPpuB
Articles populaires de l'encyclopédie
1. Modèle de transformateur
2. Auto-encodeur variationnel VAE
3. Réseaux de neurones artificiels
4. Front de Pareto
5. Compréhension linguistique multitâche à grande échelle (MMLU)
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :