Command Palette
Search for a command to run...
간단한 음성 질문 데이터 세트
Simple Voice Questions(SVQ)는 Google에서 공개한 짧은 오디오 데이터 세트로, Massive Sound Embedding Benchmark(MSEB)의 핵심 평가 구성 요소입니다. 이 데이터셋은 26개 지역에서 약 700명의 화자가 17개 언어로 응답한 짧은 음성 질문으로 구성된 다국어 음성 데이터셋입니다. 각 화자는 아랍어, 영어, 일본어, 한국어, 힌디어 등 다양한 언어로 최대 250개의 음성 샘플을 제공했습니다. 또한 조용한 환경, 배경 소음, 교통 소음 등 다양한 녹음 환경을 포함하고 있습니다. 데이터에는 화자의 성별(여성, 남성, 논바이너리, 무응답)이 레이블링되어 있어 언어 및 음향 환경 모두에서 높은 다양성을 보여줍니다.
데이터 필드:
- utt_id: 녹음을 고유하게 식별하는 문자열입니다.
- 파형: 오디오 유형, 샘플링 속도 16,000.
- locale: 녹음 지역을 나타내는 문자열입니다.
- speaker_id: 화자를 고유하게 식별하는 문자열입니다.
- speaker_age: 화자의 나이를 나타내는 32비트 정수입니다.
- speaker_gender: 화자의 성별을 나타내는 문자열입니다.
- environment: 녹화 환경을 나타내는 문자열입니다.
- 텍스트: 기록된 텍스트 내용을 나타내는 문자열 유형입니다.
- topk_salient_terms: 키워드를 나타내는 문자열 목록입니다.
- topk_salient_terms_timestamps: 키워드의 타임스탬프를 나타내는 부동 소수점 숫자 목록입니다.