HyperAI초신경

무료 음성 숫자 데이터 세트(FSDD) 디지털 인식 오디오 데이터 세트

날짜

10달 전

크기

15.67 MB

발행 주소

github.com

라이선스

CC BY-SA 4.0

FSDD(Free Spoken Digit Dataset)는 8kHz 샘플링 속도의 wav 파일 형식의 디지털 음성 녹음으로 구성된 간단한 오디오/음성 데이터 세트입니다. 녹음은 시작과 끝 부분의 침묵을 최소화하도록 편집되었습니다. 데이터 세트는 공개되어 있으므로, 데이터가 지속적으로 제공됨에 따라 시간이 지남에 따라 데이터 세트가 커질 것입니다.

FSDD 데이터 세트에는 현재 다음이 포함됩니다(2024년 7월 기준):

  • 6개의 다른 스피커
  • 3,000개의 녹음(발표자당 50개)
  • 영어 발음

데이터 세트의 파일은 특정 형식에 따라 이름이 지정됩니다. 예:{digitLabel}_{speakerName}_{index}.wav . 예를 들어, 파일 이름 7_jackson_32.wav 스피커 잭슨의 숫자 7의 32번째 녹음을 나타냅니다.

FSDD 데이터 세트는 학술 연구에만 공개되는 것이 아니라, 커뮤니티에서도 자신의 녹음물을 기여하도록 권장됩니다. 모든 녹음은 모노 8kHz wav 파일이어야 하며, 침묵을 최소화하기 위해 잘라내야 합니다.

FSDD.torrent
시딩 1다운로드 중 1완료됨 78총 다운로드 횟수 131
  • FSDD/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • free-spoken-digit-dataset-master.zip
          15.67 MB