HyperAI

D'une Valeur De 999 $ ! Billets Gratuits Pour La Conférence Apache CoC ; Publication D'un Nouvel Ensemble De Données De Référence Pour Le Raisonnement Temporel Des Grands Modèles

特色图像

Du 26 au 28 juillet, Apache organisera CommunityOverCode Asia 2024 (CoC) à Hangzhou. La conférence vous apportera les dernières informations et pratiques de pointe en matière de création et de développement de communautés Apache. HyperAI a été invité à participer à la conférence en tant que communauté coopérative. Nous avons préparé des activités d'enregistrement passionnantes et de nombreux cadeaux pour tout le monde sur place. Bienvenue à tous pour interagir sur le stand~

L'aide sociale arrive !Nous avons préparé pour vous 5 billets d'événement d'une valeur de 999 yuans.Les prix seront distribués par tirage au sort. Vous pouvez suivre le compte officiel « HyperAI Super Neural » pour participer à la loterie.

Du 15 au 19 juillet, le site officiel de hyper.ai est mis à jour :

* Ensembles de données publiques de haute qualité : 10

* Tutoriels sélectionnés de haute qualité : 2

* Sélection d'articles communautaires : 4 articles

* Entrées d'encyclopédie populaire : 5

* Principales conférences avec date limite en août : 4

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données de référence Test of Time pour les capacités de raisonnement temporel des grands modèles

L'ensemble de données est appelé ToT et est divisé en trois sous-ensembles : ToT-sémantique contient 1 850 exemples, ToT-arithmétique contient 2 800 exemples et ToT-sémantique-large contient 46 480 exemples. ToT examine respectivement la compréhension temporelle et la capacité arithmétique des LLM.

Utilisation directe :https://go.hyper.ai/D5089

2. Ensemble de données graphiques et textuelles des articles scientifiques VEGA

L'ensemble de données contient des données textuelles et visuelles provenant de plus de 50 000 articles scientifiques et est spécialement conçu pour la tâche de compréhension de lecture de textes et d'images entrelacés.

Utilisation directe :https://go.hyper.ai/DMmWq

3. Ensemble de données sur le contrôle de la qualité du citron

L'ensemble de données contient 2 690 images annotées (1 056 x 1 056 pixels) et peut être utilisé pour étudier les tâches de contrôle de la qualité des fruits.

Utilisation directe :https://go.hyper.ai/03ytr

4. Ensemble de données historiques sur le rendement des principales cultures mondiales GDHY 1981-2016

Cet ensemble de données fournit des données historiques sur le rendement des principales cultures dans le monde de 1981 à 2016. Il est d'une grande valeur pour analyser l'impact du changement climatique sur les rendements des cultures, évaluer les simulations de modèles de cultures en grille mondiale et fournir une base pour les systèmes de prévision des cultures mondiales et saisonnières.

Utilisation directe :https://go.hyper.ai/xNzH3

5. Ensemble de données de référence pour la classification d'images spectrales à grande échelle WHU-OHS

L'ensemble de données comprend 42 images satellites OHS de plus de 40 emplacements différents en Chine. Il y a respectivement 4 822, 513 et 2 460 sous-images dans l'ensemble d'entraînement, l'ensemble de validation et l'ensemble de test.

Utilisation directe :https://go.hyper.ai/OFxxR

6. Ensemble de données de détection et de suivi de cibles mobiles vidéo par satellite à grande échelle VISO

L'ensemble de données se compose de vidéos haute résolution capturées par la plate-forme satellite Jilin-1 avec une résolution de 12 000 × 5 000 pixels. Son objectif est de promouvoir les avancées technologiques dans le domaine de l’analyse vidéo par satellite et de relever les défis qui y sont liés, tels que la petite taille des cibles, la faible résolution spatiale et les informations limitées sur l’apparence et la texture.

Utilisation directe :https://go.hyper.ai/LcMbH

7. Ensemble de données de segmentation d'images médicales 3D à grande échelle SAT-DS

Cet ensemble de données est actuellement le plus grand ensemble de données de segmentation d’images médicales 3D. Il rassemble 72 ensembles de données publiques, plus de 22 000 images provenant de trois modalités de CT, IRM et PET, plus de 302 000 annotations de segmentation, couvrant 497 cibles de segmentation dans 8 parties principales du corps humain, et réalise un modèle général de segmentation médicale d'images radiologiques via des invites textuelles.

Utilisation directe :https://go.hyper.ai/aANbx

8. Ensemble de données de référence de l'assistant général d'IA GAIA

GAIA se compose de plus de 450 questions complexes avec des réponses claires qui nécessitent différents niveaux d'outils et d'autonomie pour être résolues. Il est donc divisé en 3 niveaux, où le niveau 1 peut être conquis par un très bon LLM, tandis que le niveau 3 indique une grande amélioration de la capacité du modèle. Chaque niveau est divisé en un ensemble de développement entièrement public pour la validation et un ensemble de tests contenant des réponses privées et des métadonnées.

Utilisation directe :https://go.hyper.ai/VY3cU

9. Détection de casque Ensemble de données de détection de casque

Cet ensemble de données contient 764 images de deux catégories différentes : « portant un casque » et « ne portant pas de casque », qui peuvent être utilisées pour les tâches de détection de casque.

Utilisation directe :https://go.hyper.ai/QuMyR

10. Ensemble de données de référence hyperspectrales sur l'humidité du sol

Cet ensemble de données est un ensemble de données de référence pour l’évaluation de l’humidité du sol basé sur des données hyperspectrales. Ces données ont été obtenues grâce à une campagne de mesures sur le terrain de 5 jours à Karlsruhe, en Allemagne. Son objectif est d’étudier et de développer des modèles permettant d’estimer la teneur en humidité du sol à partir de données hyperspectrales.

Utilisation directe :https://go.hyper.ai/fG77T

Pour plus d'ensembles de données publics, veuillez visiter :

https://hyper.ai/datasets

Tutoriels publics sélectionnés

1. Démo Tencent HunyuanDiT Wenshengtu

Ce modèle est la première architecture DiT bilingue chinois-anglais, un modèle de génération de texte en image basé sur le transformateur de diffusion, qui possède des capacités de compréhension à granularité fine en chinois et en anglais. L'équipe de recherche a construit un pipeline de données complet pour mettre à jour et évaluer les données afin de faciliter l'itération d'optimisation du modèle. Ce tutoriel ne nécessite aucune saisie de commande et vous pouvez démarrer la génération d'images immédiatement avec un clonage en un clic.

Exécutez en ligne :https://go.hyper.ai/Dwtf7

2. Démonstration de Paints-Undo de l'ensemble du processus de génération d'une peinture à partir d'une image

PaintsUndo est un modèle qui peut simuler le comportement humain en matière de peinture. Son objectif est de fournir un modèle de base du comportement de peinture pour les humains. Dans le même temps, on espère que les futurs modèles d’IA seront en mesure de mieux répondre aux besoins réels des artistes humains. Ce projet fournit une série de modèles qui prennent une image en entrée et produisent une séquence de dessins de cette image. Ce tutoriel est une démonstration d'exécution en un clic de PaintsUndo. L'environnement et les dépendances pertinents ont été installés. Vous pouvez en faire l'expérience en le clonant et en le démarrant en un clic.

Exécutez en ligne :https://go.hyper.ai/Nr3DC

Nous avons également créé un groupe d'échange de tutoriels Stable Diffusion. Bienvenue aux amis pour scanner le code QR et commenter [tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application ~

Articles de la communauté

1. Les réseaux neuronaux remplacent la théorie de la fonctionnelle de la densité ! Le groupe de recherche Tsinghua publie le modèle de matériau universel DeepH, permettant une prédiction ultra-précise

Des chercheurs de l'Université Tsinghua ont utilisé la méthode originale DeepH pour développer le modèle de matériau universel DeepH et ont démontré une solution réalisable pour construire un « grand modèle de matériau ». Cette avancée offre de nouvelles opportunités de découverte de matériaux innovants. Cet article est une interprétation et un partage du document.

Voir le rapport complet :https://go.hyper.ai/lxFha

2. Pas de remplacement, mais une symbiose ! L’avenir de la science météorologique nécessite la combinaison organique de l’IA et des prévisions numériques

Avec le développement rapide de l'IA, la question se pose : « Les prévisions numériques traditionnelles seront-elles rattrapées, dépassées, voire complètement remplacées par l'IA ? Comment les deux peuvent-elles coexister ? » a suscité l’attention et la réflexion des gens ces dernières années. À cet égard, Huang Wei, directeur adjoint de l'Institut de recherche sur les typhons de Shanghai de l'Administration météorologique chinoise, estime : « Dans un avenir prévisible, la combinaison organique des prévisions météorologiques de l'IA et des prévisions numériques traditionnelles est le moyen le plus efficace de réaliser des percées dans la technologie de prévision. » Cet article est l'interprétation et le partage par HyperAI de la relation entre les deux.

Voir le rapport complet :https://go.hyper.ai/ui8Yv

3. Sélectionné pour l'ICML ! L'équipe de l'Université Renmin a utilisé le réseau neuronal à graphe équivariant pour prédire les sites de liaison des protéines cibles, avec la plus grande amélioration des performances de 20%

Une équipe de recherche de la Gaoling School of Artificial Intelligence de l'Université Renmin de Chine a appliqué pour la première fois les réseaux neuronaux à graphes équivariants (GNN) E(3) à la prédiction du site de liaison du ligand, et a proposé un cadre appelé EquiPocket, qui répond aux défis rencontrés par les méthodes basées sur les CNN. Cet article est une interprétation et un partage du processus de recherche.

Voir le rapport complet :https://go.hyper.ai/HrzK4

4. Stanford, Apple et 23 autres institutions ont publié des benchmarks DCLM. Les ensembles de données de haute qualité peuvent-ils bouleverser les lois d’échelle ? Le modèle de base fonctionne à égalité avec le Llama3 8B

En réponse à l'augmentation continue de la quantité de données nécessaires à la formation des modèles linguistiques et à des problèmes tels que la qualité des données, 23 institutions, dont Stanford et Apple, ont publié le test de référence DCLM, nettoyant 240 000 milliards de données. Cet article est une interprétation et un partage du processus expérimental.

Voir le rapport complet :https://go.hyper.ai/V3gPg

Articles populaires de l'encyclopédie

1. Loi d'échelle

2. Modélisation du langage masqué (MLM)

3. Augmentation des données

4. Mémoire à long terme Mémoire à court terme

5. Réseau neuronal quantique

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

Activités de bien-être
La conférence CommunityOverCode 2024 (CoC en abrégé) se tiendra à Hangzhou du 26 au 28 juillet. La conférence est la série mondiale officielle de conférences de l'Apache Software Foundation (ASF) visant à promouvoir le développement de la technologie open source et la participation communautaire. HyperAI participera à cet événement en tant que communauté coopérative et a hâte de vous rencontrer hors ligne !

Bienvenue pour suivre le compte public « HyperAI Super Neural » pour participer au tirage au sort.Tentez votre chance de gagner des billets d'événement d'une valeur de 999 yuans !