Command Palette

Search for a command to run...

AudioSetCaps 오디오 자막 데이터 세트

날짜

일 년 전

크기

120.7 MB

기관

난양 이공대학교
서리 대학교

발행 주소

github.com

논문 URL

openreview.net

라이선스

CC BY 4.0

이 데이터 세트는 2024년에 노스웨스턴 폴리테크닉 대학교, 시안 리안펑 음향기술 주식회사, 난양이공대학교, 서리대학교, 중국과학원 음향연구소의 연구원들에 의해 공개되었습니다.AudioSetCaps: 대규모 오디오 언어 모델을 사용한 강화된 오디오 캡션 데이터 세트 생성"이 NeurIPS 24에 게재되었습니다.

AudioSetCaps는 6,117,099개의 10초 오디오 파일을 포함하는 오디오 캡션 데이터 세트입니다. 각 오디오 파일에는 설명적 제목과 3개의 Q&A 쌍이 메타데이터로 포함되어 최종 제목을 생성합니다(총 18,414,789쌍의 Q&A 데이터).

이 모델은 AudioSet, YouTube-8M, VGGSound의 세 가지 오디오 데이터세트에서 수집한 데이터를 사용하여 대규모 오디오 및 언어 모델의 자동 생성 파이프라인을 통해 만들어졌습니다.

AudioSetCaps.torrent
시딩 1다운로드 중 0완료됨 104총 다운로드 횟수 166
  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
AudioSetCaps 오디오 자막 데이터 세트 | 데이터셋 | HyperAI초신경