NeurIPS 2024 데이터셋 요약 │커버 클라우드 제거/화학 분광학/노래 오디오/자율 주행/곤충 표본······

NeurIPS는 신경 정보 처리 시스템 컨퍼런스(Neural Information Processing Systems Conference)의 약자로, 신경 정보 처리 시스템에 대한 연례 학술 대회입니다. 이 컨퍼런스는 1987년 NIPS라는 이름으로 시작되었습니다. 인공지능 분야가 급속히 발전함에 따라 그 영향력은 점차 확대되었고, 점점 더 많은 연구자와 기업의 주목과 인지를 받게 되었습니다. 컨퍼런스에서 다루는 분야가 매우 다양하다는 점을 더 잘 반영하기 위해 NIPS는 2017년에 공식적으로 NeurIPS로 이름이 바뀌었습니다.
오늘날 NeurIPS는 전 세계의 학자, 기업가, 연구자들을 끌어 모으는 전 세계에서 인공지능 분야에서 가장 권위 있는 학술대회 중 하나로 자리매김했습니다.
올해는 38회째를 맞는 NeurIPS(NeurIPS 2024)이며, 학문적 성과는 그 어느 때보다 뛰어납니다. 올해는 총 15,671건의 유효한 논문이 접수되었고, 최종적으로 약 4,000건의 논문이 수락되었다고 합니다.
HyperAI는 컨퍼런스에서 수신한 데이터 세트를 기반으로 9개의 고품질 오픈 소스 데이터 세트를 편집했습니다.구름 제거, 화학 스펙트럼, 노래 오디오, 자율 주행, 곤충 표본 등 다양한 측면을 다루므로 필요에 따라 다운로드할 수 있습니다~
정상회담에 대한 자세한 내용을 알아보려면 여기를 클릭하세요.
https://go.hyper.ai/vWvAW
QR 코드를 스캔하고 "데이터 세트"에 표시하여 토론 그룹에 참여하세요↓

NeurIPS 2024 데이터 세트 요약
1 , AllClear 퍼블릭 클라우드 제거 데이터 세트
출판사:코넬 대학교, 컬럼비아 대학교
예상 크기:22.42GB
다운로드 주소:https://go.hyper.ai/iRqtm
위성 이미지 속 구름은 하류 응용 분야에 상당한 과제를 안겨주며, 현재 구름 제거 연구가 직면한 주요 문제는 포괄적인 벤치마크와 충분히 크고 다양한 교육 데이터 세트가 부족하다는 것입니다. AllClear는 현재 가장 큰 규모의 퍼블릭 클라우드 제거 데이터 세트로, 다양한 토지 이용 패턴을 포괄하는 전 세계적으로 분산된 23,742개의 관심 지역(ROI)과 총 400만 개의 이미지를 포함하고 있습니다.
2. 무하라프(Muharaf) 손으로 쓴 아랍어 데이터세트
출판사:노스캐롤라이나 주립대학교, 카슬릭 홀리 스피릿 대학교, 레바논 역사학회
예상 크기:9.83GB
다운로드 주소:https://go.hyper.ai/yztH6
무하라프 데이터 세트는 손으로 쓴 아랍어 인식에 초점을 맞춘 머신 러닝 데이터 세트로, 보관 아랍어 전문가가 필사한 역사적 손으로 쓴 페이지의 1,600개 이상의 이미지를 포함하고 있습니다. 각 문서 이미지에는 텍스트 줄의 공간적 다각형 좌표와 기본 페이지 요소에 대한 정보가 함께 제공되어 손으로 쓴 텍스트 인식(HTR) 분야의 최첨단 기술을 발전시키는 것을 목표로 합니다.
3 ,화학 다중 모드 분광 데이터 세트
출판사:IBM Research, 취리히 대학교, EPFL, NCCR 촉매
예상 크기:9.7GB
다운로드 주소:https://go.hyper.ai/ZdXk8
이 데이터 세트에는 특허 데이터의 화학 반응에서 추출한 790,000개 분자의 시뮬레이션된 1H-NMR, 13C-NMR, HSQC-NMR, 적외선 및 질량 분석(양이온 및 음이온 모드) 스펙트럼 데이터가 포함되어 있습니다. 이 데이터 세트의 핵심 가치는 여러 스펙트럼 모드에서 얻은 정보를 통합하고 인간 전문가가 분자 구조를 분석하는 데 사용하는 방법을 시뮬레이션하여 구조 분석을 자동화하고 합성에서 구조 결정까지 분자 발견 프로세스를 단순화하는 능력에 있습니다.
4 , GTSinger 노래 오디오 데이터 세트
출판사:저장대학교
예상 크기:28.94GB
다운로드 주소:https://go.hyper.ai/7jdi2
이 데이터 세트에는 전문 가수 20명이 중국어, 영어, 일본어, 한국어 등 9개 언어로 전문 스튜디오에서 녹음한 80.59시간 분량의 노래가 포함되어 있어 연구자들에게 매우 풍부한 음색과 스타일을 갖춘 리소스 라이브러리를 제공합니다.
5 , DrivingDojo 자율주행 데이터 세트
출판사:중국과학원, 메이투안, 중국과학원 홍콩혁신원 인공지능 및 로봇센터
다운로드 주소:https://go.hyper.ai/W3eDT
이 데이터 세트에는 베이징, 선전, 쉬저우 등의 도시를 포함하는 약 18,000개의 비디오 클립이 포함되어 있으며, 다양한 날씨 조건과 일광 조건에서 녹화되었습니다. 여기에는 가속, 비상 제동, 정지-시동과 같은 종방향 작동뿐만 아니라 U턴, 추월, 차선 변경과 같은 횡방향 작동도 포함됩니다. 또한, 이 데이터 세트는 복잡한 주행 환경에서 세계 모델의 예측 및 제어 기능을 개선하는 것을 목표로, 다수의 다중 에이전트 상호작용 궤적에 대한 비디오를 포함하도록 특별히 설계되었습니다.
6 ,다중 모드 곤충 생물다양성 데이터 세트
출판사:생물다양성 유전체학 센터, 궬프 대학교, 워털루 대학교 등
예상 크기:37.71GB
다운로드 주소:https://go.hyper.ai/Ljjwp
BIOSCAN-5M 데이터 세트에는 500만 개 이상의 곤충 표본에 대한 자세한 정보가 포함되어 있어 기존의 이미지 기반 생물학 데이터 세트를 크게 확장합니다. 여기에는 분류 라벨, 원시 뉴클레오티드 바코드 시퀀스, 할당된 바코드 인덱스 번호 및 지리적 정보가 포함될 뿐만 아니라 표본 크기와 같은 다중 모드 정보도 포함되어 전 세계 곤충 생물다양성을 이해하고 모니터링하는 것을 목표로 합니다.
7 , OpenSatMap 고해상도 위성 데이터 세트
출판사:중국과학원, 인공지능 및 로봇 연구센터, 홍콩정보시스템연구소, 중국과학원, 텐센트맵, 베이징우전대학
예상 크기:57.7GB
다운로드 주소:https://go.hyper.ai/g54aa
이 데이터 세트는 대규모 지도 구축을 위해 설계된 고해상도 위성 데이터 세트입니다. 이 서비스는 세분화된 인스턴스 수준 주석과 고해상도 이미지를 제공하며, 중국 내 여러 도시의 이미지뿐만 아니라 전 세계 18개국, 50개 이상의 도시의 이미지를 포함하여 3,787개의 고해상도 위성 이미지를 포함합니다.
8 ,자연종 사운드 데이터 세트
출판사:매사추세츠 대학교 애머스트 캠퍼스, iNaturalist
예상 크기:131.26GB
다운로드 주소:https://go.hyper.ai/lyTcc
이 데이터 세트는 전 세계 27,000명 이상의 녹음자가 기여한 5,500종 이상의 소리를 수집한 230,000개의 오디오 파일로 구성되어 있습니다. 이 데이터 세트에는 새, 포유류, 곤충, 파충류, 양서류의 소리가 포함되어 있으며, 오디오 및 종 레이블은 iNaturalist에 제출된 관찰 기록에서 파생되었습니다.
9 , MINT-1T 텍스트-이미지 쌍 다중 모드 데이터세트
출판사:워싱턴대학교, 스탠포드대학교, 세일즈포스 리서치 등
다운로드 주소:https://go.hyper.ai/kROfu
이 데이터 세트에는 1조 개의 텍스트 태그와 34억 개의 이미지가 포함되어 있으며, 이는 이전에 가장 큰 오픈 소스 데이터 세트보다 10배 더 큽니다. 여기에는 HTML 문서뿐만 아니라 PDF 문서와 ArXiv 논문도 포함되어 있어 다양성 덕분에 과학 문서의 적용 범위가 크게 확대되었습니다.
10 , AudioSetCaps 오디오 자막 데이터 세트
출판사:서북이공대학, 시안련풍음향기술유한회사, 난양이공대학, 중국과학원 음향연구소 등
다운로드 주소:https://go.hyper.ai/rTKdU
AudioSetCaps는 AudioSet, YouTube-8M 및 VGGSound에서 데이터를 가져온 오디오 캡션 데이터 세트로, 6,117,099개의 10초 오디오 파일을 포함합니다. 각 오디오 파일에는 설명적 제목과 3개의 Q&A 쌍이 메타데이터로 포함되어 최종 제목을 생성합니다(총 18,414,789쌍의 Q&A 데이터).
위는 HyperAI가 수집한 NeurIPS 2024 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기고문을 제출하여 알려주시기 바랍니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 200개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.