HyperAI초신경

홈 플랫폼 문서 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

AudioSetCaps 오디오 자막 데이터 세트

날짜

일 년 전

크기

120.7 MB

기관

발행 주소

논문 URL

라이선스

CC BY 4.0

태그

오디오 분류

오디오 인식

데이터셋 다운로드

Discord 커뮤니티 참여

이 데이터 세트는 2024년에 노스웨스턴 폴리테크닉 대학교, 시안 리안펑 음향기술 주식회사, 난양이공대학교, 서리대학교, 중국과학원 음향연구소의 연구원들에 의해 공개되었습니다.AudioSetCaps: 대규모 오디오 언어 모델을 사용한 강화된 오디오 캡션 데이터 세트 생성"이 NeurIPS 24에 게재되었습니다.

AudioSetCaps는 6,117,099개의 10초 오디오 파일을 포함하는 오디오 캡션 데이터 세트입니다. 각 오디오 파일에는 설명적 제목과 3개의 Q&A 쌍이 메타데이터로 포함되어 최종 제목을 생성합니다(총 18,414,789쌍의 Q&A 데이터).

이 모델은 AudioSet, YouTube-8M, VGGSound의 세 가지 오디오 데이터세트에서 수집한 데이터를 사용하여 대규모 오디오 및 언어 모델의 자동 생성 파이프라인을 통해 만들어졌습니다.

AudioSetCaps.torrent

시딩 1다운로드 중 0완료됨 104총 다운로드 횟수 166

AudioSetCaps/
- README.md
  1.63 KB
- README.txt
  3.27 KB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

AudioSetCaps 오디오 자막 데이터 세트 | 데이터셋 | HyperAI초신경