Zusammenfassung Des NeurIPS 2024-Datensatzes | Entfernung Von Cover-Wolken/Chemische Spektroskopie/Gesangsaudio/Autonomes Fahren/Insektenproben······

NeurIPS, der vollständige Name der Neural Information Processing Systems Conference, ist eine jährliche wissenschaftliche Konferenz zu neuronalen Informationsverarbeitungssystemen. Die Konferenz begann 1987 als NIPS. Mit der rasanten Entwicklung des Bereichs der künstlichen Intelligenz hat sich ihr Einfluss schrittweise erweitert und sie hat bei immer mehr Forschern und Unternehmen Beachtung und Bekanntheit erlangt. Um die große Bandbreite der von der Konferenz abgedeckten Bereiche besser widerzuspiegeln, wurde NIPS 2017 offiziell in NeurIPS umbenannt.
Heute ist NeurIPS eine der weltweit bedeutendsten akademischen Konferenzen im Bereich der künstlichen Intelligenz und zieht Wissenschaftler, Unternehmer und Forscher aus der ganzen Welt an.
Dieses Jahr findet das 38. NeurIPS (NeurIPS 2024) statt und die akademischen Erfolge sind so großartig wie eh und je. Berichten zufolge gingen in diesem Jahr insgesamt 15.671 gültige Einreichungen ein und etwa 4.000 Beiträge wurden schließlich angenommen.
HyperAI hat aus den auf der Konferenz eingegangenen Datensätzen 9 hochwertige Open-Source-Datensätze zusammengestellt.Es deckt Wolkenentfernung, chemische Spektren, Gesangsaudio, autonomes Fahren, Insektenproben und viele andere Aspekte ab und kann bei Bedarf heruntergeladen werden~
Klicken Sie hier, um mehr über den Gipfel zu erfahren:
https://go.hyper.ai/vWvAW
Scannen Sie den QR-Code und geben Sie „Datensatz“ ein, um der Diskussionsgruppe beizutreten ↓

Zusammenfassung des NeurIPS 2024-Datensatzes
1 , AllClear Public Cloud-Entfernungsdatensatz
Verlag:Cornell University, Columbia University
Geschätzte Größe:22,42 GB
Downloadadresse:https://go.hyper.ai/iRqtm
Wolken in Satellitenbildern stellen erhebliche Herausforderungen für nachgelagerte Anwendungen dar, und ein großes Problem der aktuellen Forschung zur Wolkenentfernung ist der Mangel an umfassenden Benchmarks und ausreichend großen und vielfältigen Trainingsdatensätzen. AllClear ist derzeit der größte öffentliche Datensatz zur Wolkenentfernung. Er enthält 23.742 weltweit verteilte Regionen von Interesse (ROIs), die eine Vielzahl von Landnutzungsmustern abdecken, und insgesamt 4 Millionen Bilder.
2. Handgeschriebener arabischer Datensatz von Muharaf
Verlag:North Carolina State University, Holy Spirit University of Kaslik, Libanesische Historische Gesellschaft
Geschätzte Größe:9,83 GB
Downloadadresse:https://go.hyper.ai/yztH6
Der Muharaf-Datensatz ist ein Datensatz für maschinelles Lernen, der sich auf die Erkennung handschriftlicher arabischer Texte konzentriert und über 1,6.000 Bilder historischer handschriftlicher Seiten enthält, die von Archiv-Arabisch-Experten transkribiert wurden. Jedes Dokumentbild wird von den räumlichen Polygonkoordinaten seiner Textzeilen und Informationen zu den grundlegenden Seitenelementen begleitet, um den Stand der Technik im Bereich der handschriftlichen Texterkennung (HTR) voranzubringen.
3 ,Chemische multimodale spektroskopische Datensätze
Verlag:IBM Research, Universität Zürich, EPFL, NCCR Katalyse
Geschätzte Größe:9,7 GB
Downloadadresse:https://go.hyper.ai/ZdXk8
Der Datensatz enthält simulierte 1H-NMR-, 13C-NMR-, HSQC-NMR-, Infrarot- und Massenspektrometrie-Spektraldaten (positive und negative Ionenmodi) von 790.000 Molekülen, die aus chemischen Reaktionen in Patentdaten extrahiert wurden. Der Kernwert dieses Datensatzes liegt in seiner Fähigkeit, Informationen aus mehreren Spektralmodalitäten zu integrieren und die von menschlichen Experten zur Analyse molekularer Strukturen verwendeten Methoden zu simulieren. Dadurch wird die Strukturanalyse automatisiert und der Prozess der molekularen Entdeckung von der Synthese bis zur Strukturbestimmung vereinfacht.
4 , GTSinger Gesangs-Audiodatensatz
Verlag:Zhejiang-Universität
Geschätzte Größe:28,94 GB
Downloadadresse:https://go.hyper.ai/7jdi2
Der Datensatz enthält 80,59 Stunden Gesang, der in professionellen Studios von 20 professionellen Sängern in 9 verschiedenen Sprachen (darunter Chinesisch, Englisch, Japanisch, Koreanisch usw.) aufgenommen wurde, und bietet den Forschern eine Ressourcenbibliothek mit äußerst reichen Klangfarben und Stilen.
5 , DrivingDojo-Datensatz für autonomes Fahren
Verlag:Chinesische Akademie der Wissenschaften, Meituan, Zentrum für künstliche Intelligenz und Robotik des Hong Kong Innovation Institute der Chinesischen Akademie der Wissenschaften
Downloadadresse:https://go.hyper.ai/W3eDT
Der Datensatz enthält etwa 18.000 Videoclips aus Städten wie Peking, Shenzhen und Xuzhou, die unter unterschiedlichen Wetter- und Tageslichtbedingungen aufgenommen wurden. Es umfasst nicht nur Längsvorgänge wie Beschleunigen, Notbremsen und Stop-Start, sondern auch Quervorgänge wie Wenden, Überholen und Spurwechsel. Darüber hinaus ist der Datensatz speziell darauf ausgelegt, eine große Anzahl von Videos von Interaktionstrajektorien mehrerer Agenten aufzunehmen, mit dem Ziel, die Vorhersage- und Steuerungsfähigkeiten des Weltmodells in komplexen Fahrumgebungen zu verbessern.
6 ,Multimodaler Datensatz zur Insektenbiodiversität
Verlag:Zentrum für Biodiversitätsgenomik, University of Guelph, University of Waterloo usw.
Geschätzte Größe:37,71 GB
Downloadadresse:https://go.hyper.ai/Ljjwp
Der BIOSCAN-5M-Datensatz enthält detaillierte Informationen zu mehr als 5 Millionen Insektenproben und erweitert bestehende bildbasierte biologische Datensätze erheblich. Es umfasst nicht nur Klassifizierungsbezeichnungen, Rohnukleotid-Barcodesequenzen, zugewiesene Barcode-Indexnummern und geografische Informationen, sondern deckt auch multimodale Informationen wie die Probengröße ab, um die globale Insektenbiodiversität zu verstehen und zu überwachen.
7 , OpenSatMap hochauflösender Satellitendatensatz
Verlag:Chinesische Akademie der Wissenschaften, Forschungszentrum für künstliche Intelligenz und Robotik, Hong Kong Institute of Information Systems, Chinesische Akademie der Wissenschaften, Tencent Maps und Beijing University of Posts and Telecommunications
Geschätzte Größe:57,7 GB
Downloadadresse:https://go.hyper.ai/g54aa
Bei diesem Datensatz handelt es sich um einen hochauflösenden Satellitendatensatz, der für die Erstellung großmaßstäblicher Karten konzipiert ist. Es bietet detaillierte Anmerkungen auf Instanzebene und hochauflösende Bilder und enthält 3.787 hochauflösende Satellitenbilder, darunter nicht nur Bilder mehrerer Städte in China, sondern auch Bilder von mehr als 50 Städten und 18 Ländern auf der ganzen Welt.
8 ,Datensatz zu natürlichen Artengeräuschen
Verlag:Universität von Massachusetts Amherst, iNaturalist
Geschätzte Größe:131,26 GB
Downloadadresse:https://go.hyper.ai/lyTcc
Der Datensatz ist eine Sammlung von 230.000 Audiodateien, die Geräusche von mehr als 5.500 Arten erfassen und von mehr als 27.000 Recordern auf der ganzen Welt beigesteuert wurden. Dieser Datensatz enthält Geräusche von Vögeln, Säugetieren, Insekten, Reptilien und Amphibien, wobei die Audio- und Artenbezeichnungen aus an iNaturalist übermittelten Beobachtungsaufzeichnungen stammen.
9 , MINT-1T Text-Bild-Paar Multimodaler Datensatz
Verlag:University of Washington, Stanford University, Salesforce Research usw.
Downloadadresse:https://go.hyper.ai/kROfu
Der Datensatz enthält 1 Billion Text-Tags und 3,4 Milliarden Bilder und ist damit zehnmal größer als der bisher größte Open-Source-Datensatz. Es umfasst nicht nur HTML-Dokumente, sondern auch PDF-Dokumente und ArXiv-Artikel und verbessert durch seine Vielfalt die Abdeckung wissenschaftlicher Dokumente erheblich.
10 , AudioSetCaps Audio-Untertitel-Datensatz
Verlag:Northwestern Polytechnical University, Xi'an Lianfeng Acoustic Technology Co., Ltd., Nanyang Technological University, Institut für Akustik, Chinesische Akademie der Wissenschaften usw.
Downloadadresse:https://go.hyper.ai/rTKdU
AudioSetCaps ist ein Audio-Untertitel-Datensatz, dessen Daten von AudioSet, YouTube-8M und VGGSound stammen und 6.117.099 10-Sekunden-Audiodateien enthalten. Jede Audiodatei wird von einem beschreibenden Titel und 3 Frage-und-Antwort-Paaren als Metadaten begleitet, um den endgültigen Titel zu generieren (insgesamt 18.414.789 Frage-und-Antwort-Datenpaare).
Oben ist der von HyperAI zusammengestellte NeurIPS 2024-Datensatz. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Beitrag einreichen, um uns davon zu erzählen!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze
* Enthält über 400 klassische und beliebte Online-Tutorials
* Interpretation von über 200 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: