Résumé De L'ensemble De Données NeurIPS 2024 | Élimination Des Nuages De Couverture/spectroscopie Chimique/audio De Chant/conduite Autonome/spécimens D'insectes······

NeurIPS, nom complet de Neural Information Processing Systems Conference, est une conférence universitaire annuelle sur les systèmes de traitement de l'information neuronale. La conférence a débuté en 1987 sous le nom de NIPS. Avec le développement rapide du domaine de l'intelligence artificielle, son influence s'est progressivement étendue et elle a été prise en compte et connue par de plus en plus de chercheurs et d'entreprises. Afin de mieux refléter le large éventail de domaines couverts par la conférence, NIPS a été officiellement rebaptisé NeurIPS en 2017.
Aujourd’hui, NeurIPS est devenue l’une des conférences universitaires les plus réputées dans le domaine de l’intelligence artificielle au monde, attirant des universitaires, des entrepreneurs et des chercheurs du monde entier.
Cette année marque la 38e édition de NeurIPS (NeurIPS 2024), et les réalisations académiques restent aussi grandioses que jamais. Il est rapporté qu’un total de 15 671 soumissions valides ont été reçues cette année et qu’environ 4 000 articles ont finalement été acceptés.
HyperAI a compilé 9 ensembles de données open source de haute qualité à partir des ensembles de données reçus lors de la conférence.Couvrant l'élimination des nuages, les spectres chimiques, le chant audio, la conduite autonome, les spécimens d'insectes et bien d'autres aspects, vous pouvez le télécharger selon vos besoins~
Cliquez ici pour en savoir plus sur le sommet :
https://go.hyper.ai/vWvAW
Scannez le code QR et notez « dataset » pour rejoindre le groupe de discussion↓

Résumé de l'ensemble de données NeurIPS 2024
1 , Ensemble de données de suppression du cloud public AllClear
Agence d'édition :Université Cornell, Université Columbia
Taille estimée :22,42 Go
Adresse de téléchargement :https://go.hyper.ai/iRqtm
Les nuages dans l'imagerie satellite posent des défis importants pour les applications en aval, et l'un des principaux problèmes auxquels sont confrontées les recherches actuelles sur la suppression des nuages est le manque de repères complets et d'ensembles de données de formation suffisamment grands et diversifiés. AllClear est actuellement le plus grand ensemble de données publiques sur la suppression des nuages, contenant 23 742 régions d'intérêt (ROI) réparties à l'échelle mondiale, couvrant une variété de modèles d'utilisation des terres et un total de 4 millions d'images.
2. Ensemble de données arabes manuscrites de Muharaf
Agence d'édition :Université d'État de Caroline du Nord, Université Saint-Esprit de Kaslik, Société historique libanaise
Taille estimée :9,83 Go
Adresse de téléchargement :https://go.hyper.ai/yztH6
L'ensemble de données Muharaf est un ensemble de données d'apprentissage automatique axé sur la reconnaissance de l'arabe manuscrit, contenant plus de 1,6 000 images de pages manuscrites historiques transcrites par des experts en archives arabes. Chaque image de document est accompagnée des coordonnées spatiales du polygone de ses lignes de texte et des informations sur les éléments de base de la page, visant à faire progresser l'état de l'art dans le domaine de la reconnaissance de texte manuscrit (HTR).
3 ,Ensembles de données spectroscopiques chimiques multimodales
Agence d'édition :Recherche IBM, Université de Zurich, EPFL, NCCR Catalyse
Taille estimée :9,7 Go
Adresse de téléchargement :https://go.hyper.ai/ZdXk8
L'ensemble de données contient des données spectrales simulées de 1H-RMN, 13C-RMN, HSQC-RMN, infrarouge et de spectrométrie de masse (modes ions positifs et négatifs) de 790 000 molécules extraites de réactions chimiques dans les données de brevets. La valeur fondamentale de cet ensemble de données réside dans sa capacité à intégrer des informations provenant de multiples modalités spectrales et à simuler les méthodes utilisées par les experts humains pour analyser les structures moléculaires, automatisant ainsi l'analyse structurelle et simplifiant le processus de découverte moléculaire, de la synthèse à la détermination de la structure.
4 , Ensemble de données audio de chant GTSinger
Agence d'édition :Université du Zhejiang
Taille estimée :28,94 Go
Adresse de téléchargement :https://go.hyper.ai/7jdi2
L'ensemble de données contient 80,59 heures de chant enregistrées dans des studios professionnels par 20 chanteurs professionnels dans 9 langues différentes, dont le chinois, l'anglais, le japonais, le coréen, etc., offrant aux chercheurs une bibliothèque de ressources avec des timbres et des styles extrêmement riches.
5 , Ensemble de données de conduite autonome DrivingDojo
Agence d'édition :Académie chinoise des sciences, Meituan, Centre d'intelligence artificielle et de robotique de l'Institut d'innovation de Hong Kong de l'Académie chinoise des sciences
Adresse de téléchargement :https://go.hyper.ai/W3eDT
L'ensemble de données contient environ 18 000 clips vidéo, couvrant des villes telles que Pékin, Shenzhen et Xuzhou, et enregistrés dans différentes conditions météorologiques et de lumière du jour. Elle comprend non seulement les opérations longitudinales telles que l'accélération, le freinage d'urgence et l'arrêt-démarrage, mais également les opérations latérales telles que les demi-tours, les dépassements et les changements de voie. De plus, l'ensemble de données est spécialement conçu pour contenir un grand nombre de vidéos de trajectoires d'interaction multi-agents, visant à améliorer les capacités de prédiction et de contrôle du modèle mondial dans des environnements de conduite complexes.
6 ,Ensemble de données multimodales sur la biodiversité des insectes
Agence d'édition :Centre de génomique de la biodiversité, Université de Guelph, Université de Waterloo, etc.
Taille estimée :37,71 Go
Adresse de téléchargement :https://go.hyper.ai/Ljjwp
L'ensemble de données BIOSCAN-5M contient des informations détaillées sur plus de 5 millions de spécimens d'insectes, élargissant considérablement les ensembles de données biologiques basés sur des images existants. Il comprend non seulement des étiquettes de classification, des séquences de codes-barres nucléotidiques brutes, des numéros d'index de codes-barres attribués et des informations géographiques, mais couvre également des informations multimodales telles que la taille des échantillons, visant à comprendre et à surveiller la biodiversité mondiale des insectes.
7 , Ensemble de données satellite haute résolution OpenSatMap
Agence d'édition :Académie chinoise des sciences, Centre de recherche en intelligence artificielle et en robotique, Institut des systèmes d'information de Hong Kong, Académie chinoise des sciences, Tencent Maps et Université des postes et télécommunications de Pékin
Taille estimée :57,7 Go
Adresse de téléchargement :https://go.hyper.ai/g54aa
Cet ensemble de données est un ensemble de données satellite haute résolution conçu pour la construction de cartes à grande échelle. Il comprend des annotations au niveau de l'instance et des images haute résolution à granularité fine, et contient 3 787 images satellites haute résolution, y compris des images non seulement de plusieurs villes en Chine, mais également des images de plus de 50 villes et 18 pays à travers le monde.
8 ,Ensemble de données sonores sur les espèces naturelles
Agence d'édition :Université du Massachusetts à Amherst, iNaturalist
Taille estimée :131,26 Go
Adresse de téléchargement :https://go.hyper.ai/lyTcc
L'ensemble de données est une collection de 230 000 fichiers audio capturant des sons provenant de plus de 5 500 espèces, fournis par plus de 27 000 enregistreurs à travers le monde. Cet ensemble de données contient des sons d'oiseaux, de mammifères, d'insectes, de reptiles et d'amphibiens, avec les étiquettes audio et d'espèces dérivées des enregistrements d'observation soumis à iNaturalist.
9 , Ensemble de données multimodales MINT-1T (paire texte-image)
Agence d'édition :Université de Washington, Université de Stanford, Salesforce Research, etc.
Adresse de téléchargement :https://go.hyper.ai/kROfu
L'ensemble de données contient 1 000 milliards de balises de texte et 3,4 milliards d'images, ce qui le rend 10 fois plus grand que le précédent plus grand ensemble de données open source. Il comprend non seulement des documents HTML, mais également des documents PDF et des articles ArXiv, améliorant considérablement la couverture des documents scientifiques grâce à sa diversité.
10 , Ensemble de données de sous-titres audio AudioSetCaps
Agence d'édition :Université polytechnique du Nord-Ouest, Xi'an Lianfeng Acoustic Technology Co., Ltd., Université technologique de Nanyang, Institut d'acoustique, Académie chinoise des sciences, etc.
Adresse de téléchargement :https://go.hyper.ai/rTKdU
AudioSetCaps est un ensemble de données de sous-titres audio dont les données proviennent d'AudioSet, YouTube-8M et VGGSound, et contient 6 117 099 fichiers audio de 10 secondes. Chaque fichier audio est accompagné d'un titre descriptif et de 3 paires de questions-réponses comme métadonnées pour générer le titre final (un total de 18 414 789 paires de données de questions-réponses).
Ce qui précède est l'ensemble de données NeurIPS 2024 compilé par HyperAI. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre une contribution pour nous le faire savoir !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 200 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :