HyperAI초신경

AudioSetCaps 오디오 자막 데이터 세트

날짜

6달 전

크기

120.7 MB

기관

난양 이공대학교
서리 대학교

발행 주소

github.com

라이선스

CC BY 4.0

이 데이터 세트는 2024년에 노스웨스턴 폴리테크닉 대학교, 시안 리안펑 음향기술 주식회사, 난양이공대학교, 서리대학교, 중국과학원 음향연구소의 연구원들에 의해 공개되었습니다.AudioSetCaps: 대규모 오디오 언어 모델을 사용한 강화된 오디오 캡션 데이터 세트 생성"이 NeurIPS 24에 게재되었습니다.

AudioSetCaps는 6,117,099개의 10초 오디오 파일을 포함하는 오디오 캡션 데이터 세트입니다. 각 오디오 파일에는 설명적 제목과 3개의 Q&A 쌍이 메타데이터로 포함되어 최종 제목을 생성합니다(총 18,414,789쌍의 Q&A 데이터).

이 모델은 AudioSet, YouTube-8M, VGGSound의 세 가지 오디오 데이터세트에서 수집한 데이터를 사용하여 대규모 오디오 및 언어 모델의 자동 생성 파이프라인을 통해 만들어졌습니다.

AudioSetCaps.torrent
시딩 1다운로드 중 1완료됨 52총 다운로드 횟수 46
  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB