HyperAI

Zusammenfassung Des NeurIPS 2024-Datensatzes | Entfernung Von Cover-Wolken/Chemische Spektroskopie/Gesangsaudio/Autonomes Fahren/Insektenproben······

特色图像

NeurIPS, der vollständige Name der Neural Information Processing Systems Conference, ist eine jährliche wissenschaftliche Konferenz zu neuronalen Informationsverarbeitungssystemen. Die Konferenz begann 1987 als NIPS. Mit der rasanten Entwicklung des Bereichs der künstlichen Intelligenz hat sich ihr Einfluss schrittweise erweitert und sie hat bei immer mehr Forschern und Unternehmen Beachtung und Bekanntheit erlangt. Um die große Bandbreite der von der Konferenz abgedeckten Bereiche besser widerzuspiegeln, wurde NIPS 2017 offiziell in NeurIPS umbenannt.

Heute ist NeurIPS eine der weltweit bedeutendsten akademischen Konferenzen im Bereich der künstlichen Intelligenz und zieht Wissenschaftler, Unternehmer und Forscher aus der ganzen Welt an.

Dieses Jahr findet das 38. NeurIPS (NeurIPS 2024) statt und die akademischen Erfolge sind so großartig wie eh und je. Berichten zufolge gingen in diesem Jahr insgesamt 15.671 gültige Einreichungen ein und etwa 4.000 Beiträge wurden schließlich angenommen.

HyperAI hat aus den auf der Konferenz eingegangenen Datensätzen 9 hochwertige Open-Source-Datensätze zusammengestellt.Es deckt Wolkenentfernung, chemische Spektren, Gesangsaudio, autonomes Fahren, Insektenproben und viele andere Aspekte ab und kann bei Bedarf heruntergeladen werden~

Klicken Sie hier, um mehr über den Gipfel zu erfahren:
https://go.hyper.ai/vWvAW

Scannen Sie den QR-Code und geben Sie „Datensatz“ ein, um der Diskussionsgruppe beizutreten ↓

Zusammenfassung des NeurIPS 2024-Datensatzes

1 , AllClear Public Cloud-Entfernungsdatensatz

Verlag:Cornell University, Columbia University

Geschätzte Größe:22,42 GB

Downloadadresse:https://go.hyper.ai/iRqtm

Wolken in Satellitenbildern stellen erhebliche Herausforderungen für nachgelagerte Anwendungen dar, und ein großes Problem der aktuellen Forschung zur Wolkenentfernung ist der Mangel an umfassenden Benchmarks und ausreichend großen und vielfältigen Trainingsdatensätzen. AllClear ist derzeit der größte öffentliche Datensatz zur Wolkenentfernung. Er enthält 23.742 weltweit verteilte Regionen von Interesse (ROIs), die eine Vielzahl von Landnutzungsmustern abdecken, und insgesamt 4 Millionen Bilder.

2. Handgeschriebener arabischer Datensatz von Muharaf

Verlag:North Carolina State University, Holy Spirit University of Kaslik, Libanesische Historische Gesellschaft

Geschätzte Größe:9,83 GB

Downloadadresse:https://go.hyper.ai/yztH6

Der Muharaf-Datensatz ist ein Datensatz für maschinelles Lernen, der sich auf die Erkennung handschriftlicher arabischer Texte konzentriert und über 1,6.000 Bilder historischer handschriftlicher Seiten enthält, die von Archiv-Arabisch-Experten transkribiert wurden. Jedes Dokumentbild wird von den räumlichen Polygonkoordinaten seiner Textzeilen und Informationen zu den grundlegenden Seitenelementen begleitet, um den Stand der Technik im Bereich der handschriftlichen Texterkennung (HTR) voranzubringen.

3 ,Chemische multimodale spektroskopische Datensätze

Verlag:IBM Research, Universität Zürich, EPFL, NCCR Katalyse

Geschätzte Größe:9,7 GB

Downloadadresse:https://go.hyper.ai/ZdXk8

Der Datensatz enthält simulierte 1H-NMR-, 13C-NMR-, HSQC-NMR-, Infrarot- und Massenspektrometrie-Spektraldaten (positive und negative Ionenmodi) von 790.000 Molekülen, die aus chemischen Reaktionen in Patentdaten extrahiert wurden. Der Kernwert dieses Datensatzes liegt in seiner Fähigkeit, Informationen aus mehreren Spektralmodalitäten zu integrieren und die von menschlichen Experten zur Analyse molekularer Strukturen verwendeten Methoden zu simulieren. Dadurch wird die Strukturanalyse automatisiert und der Prozess der molekularen Entdeckung von der Synthese bis zur Strukturbestimmung vereinfacht.

4 , GTSinger Gesangs-Audiodatensatz

Verlag:Zhejiang-Universität

Geschätzte Größe:28,94 GB

Downloadadresse:https://go.hyper.ai/7jdi2

Der Datensatz enthält 80,59 Stunden Gesang, der in professionellen Studios von 20 professionellen Sängern in 9 verschiedenen Sprachen (darunter Chinesisch, Englisch, Japanisch, Koreanisch usw.) aufgenommen wurde, und bietet den Forschern eine Ressourcenbibliothek mit äußerst reichen Klangfarben und Stilen.

5 , DrivingDojo-Datensatz für autonomes Fahren

Verlag:Chinesische Akademie der Wissenschaften, Meituan, Zentrum für künstliche Intelligenz und Robotik des Hong Kong Innovation Institute der Chinesischen Akademie der Wissenschaften

Downloadadresse:https://go.hyper.ai/W3eDT

Der Datensatz enthält etwa 18.000 Videoclips aus Städten wie Peking, Shenzhen und Xuzhou, die unter unterschiedlichen Wetter- und Tageslichtbedingungen aufgenommen wurden. Es umfasst nicht nur Längsvorgänge wie Beschleunigen, Notbremsen und Stop-Start, sondern auch Quervorgänge wie Wenden, Überholen und Spurwechsel. Darüber hinaus ist der Datensatz speziell darauf ausgelegt, eine große Anzahl von Videos von Interaktionstrajektorien mehrerer Agenten aufzunehmen, mit dem Ziel, die Vorhersage- und Steuerungsfähigkeiten des Weltmodells in komplexen Fahrumgebungen zu verbessern.

6 ,Multimodaler Datensatz zur Insektenbiodiversität

Verlag:Zentrum für Biodiversitätsgenomik, University of Guelph, University of Waterloo usw.

Geschätzte Größe:37,71 GB

Downloadadresse:https://go.hyper.ai/Ljjwp

Der BIOSCAN-5M-Datensatz enthält detaillierte Informationen zu mehr als 5 Millionen Insektenproben und erweitert bestehende bildbasierte biologische Datensätze erheblich. Es umfasst nicht nur Klassifizierungsbezeichnungen, Rohnukleotid-Barcodesequenzen, zugewiesene Barcode-Indexnummern und geografische Informationen, sondern deckt auch multimodale Informationen wie die Probengröße ab, um die globale Insektenbiodiversität zu verstehen und zu überwachen.

7 , OpenSatMap hochauflösender Satellitendatensatz

Verlag:Chinesische Akademie der Wissenschaften, Forschungszentrum für künstliche Intelligenz und Robotik, Hong Kong Institute of Information Systems, Chinesische Akademie der Wissenschaften, Tencent Maps und Beijing University of Posts and Telecommunications

Geschätzte Größe:57,7 GB

Downloadadresse:https://go.hyper.ai/g54aa

Bei diesem Datensatz handelt es sich um einen hochauflösenden Satellitendatensatz, der für die Erstellung großmaßstäblicher Karten konzipiert ist. Es bietet detaillierte Anmerkungen auf Instanzebene und hochauflösende Bilder und enthält 3.787 hochauflösende Satellitenbilder, darunter nicht nur Bilder mehrerer Städte in China, sondern auch Bilder von mehr als 50 Städten und 18 Ländern auf der ganzen Welt.

8 ,Datensatz zu natürlichen Artengeräuschen

Verlag:Universität von Massachusetts Amherst, iNaturalist

Geschätzte Größe:131,26 GB

Downloadadresse:https://go.hyper.ai/lyTcc

Der Datensatz ist eine Sammlung von 230.000 Audiodateien, die Geräusche von mehr als 5.500 Arten erfassen und von mehr als 27.000 Recordern auf der ganzen Welt beigesteuert wurden. Dieser Datensatz enthält Geräusche von Vögeln, Säugetieren, Insekten, Reptilien und Amphibien, wobei die Audio- und Artenbezeichnungen aus an iNaturalist übermittelten Beobachtungsaufzeichnungen stammen.

9 , MINT-1T Text-Bild-Paar Multimodaler Datensatz

Verlag:University of Washington, Stanford University, Salesforce Research usw.

Downloadadresse:https://go.hyper.ai/kROfu

Der Datensatz enthält 1 Billion Text-Tags und 3,4 Milliarden Bilder und ist damit zehnmal größer als der bisher größte Open-Source-Datensatz. Es umfasst nicht nur HTML-Dokumente, sondern auch PDF-Dokumente und ArXiv-Artikel und verbessert durch seine Vielfalt die Abdeckung wissenschaftlicher Dokumente erheblich. 

10 , AudioSetCaps Audio-Untertitel-Datensatz

Verlag:Northwestern Polytechnical University, Xi'an Lianfeng Acoustic Technology Co., Ltd., Nanyang Technological University, Institut für Akustik, Chinesische Akademie der Wissenschaften usw.

Downloadadresse:https://go.hyper.ai/rTKdU

AudioSetCaps ist ein Audio-Untertitel-Datensatz, dessen Daten von AudioSet, YouTube-8M und VGGSound stammen und 6.117.099 10-Sekunden-Audiodateien enthalten. Jede Audiodatei wird von einem beschreibenden Titel und 3 Frage-und-Antwort-Paaren als Metadaten begleitet, um den endgültigen Titel zu generieren (insgesamt 18.414.789 Frage-und-Antwort-Datenpaare). 

Oben ist der von HyperAI zusammengestellte NeurIPS 2024-Datensatz. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Beitrag einreichen, um uns davon zu erzählen!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze

* Enthält über 400 klassische und beliebte Online-Tutorials

* Interpretation von über 200 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai