이 데이터셋 사용 Discord에서 논의하기

날짜

3달 전

조직

라이선스

CC BY 4.0

태그

Simple Voice Questions(SVQ)는 Google에서 공개한 짧은 오디오 데이터 세트로, Massive Sound Embedding Benchmark(MSEB)의 핵심 평가 구성 요소입니다. 이 데이터셋은 26개 지역에서 약 700명의 화자가 17개 언어로 응답한 짧은 음성 질문으로 구성된 다국어 음성 데이터셋입니다. 각 화자는 아랍어, 영어, 일본어, 한국어, 힌디어 등 다양한 언어로 최대 250개의 음성 샘플을 제공했습니다. 또한 조용한 환경, 배경 소음, 교통 소음 등 다양한 녹음 환경을 포함하고 있습니다. 데이터에는 화자의 성별(여성, 남성, 논바이너리, 무응답)이 레이블링되어 있어 언어 및 음향 환경 모두에서 높은 다양성을 보여줍니다.

데이터 필드:

utt_id: 녹음을 고유하게 식별하는 문자열입니다.
파형: 오디오 유형, 샘플링 속도 16,000.
locale: 녹음 지역을 나타내는 문자열입니다.
speaker_id: 화자를 고유하게 식별하는 문자열입니다.
speaker_age: 화자의 나이를 나타내는 32비트 정수입니다.
speaker_gender: 화자의 성별을 나타내는 문자열입니다.
environment: 녹화 환경을 나타내는 문자열입니다.
텍스트: 기록된 텍스트 내용을 나타내는 문자열 유형입니다.
topk_salient_terms: 키워드를 나타내는 문자열 목록입니다.
topk_salient_terms_timestamps: 키워드의 타임스탬프를 나타내는 부동 소수점 숫자 목록입니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

이 데이터셋 사용 Discord에서 논의하기

날짜

3달 전

조직

라이선스

CC BY 4.0

태그

Simple Voice Questions(SVQ)는 Google에서 공개한 짧은 오디오 데이터 세트로, Massive Sound Embedding Benchmark(MSEB)의 핵심 평가 구성 요소입니다. 이 데이터셋은 26개 지역에서 약 700명의 화자가 17개 언어로 응답한 짧은 음성 질문으로 구성된 다국어 음성 데이터셋입니다. 각 화자는 아랍어, 영어, 일본어, 한국어, 힌디어 등 다양한 언어로 최대 250개의 음성 샘플을 제공했습니다. 또한 조용한 환경, 배경 소음, 교통 소음 등 다양한 녹음 환경을 포함하고 있습니다. 데이터에는 화자의 성별(여성, 남성, 논바이너리, 무응답)이 레이블링되어 있어 언어 및 음향 환경 모두에서 높은 다양성을 보여줍니다.

데이터 필드:

utt_id: 녹음을 고유하게 식별하는 문자열입니다.
파형: 오디오 유형, 샘플링 속도 16,000.
locale: 녹음 지역을 나타내는 문자열입니다.
speaker_id: 화자를 고유하게 식별하는 문자열입니다.
speaker_age: 화자의 나이를 나타내는 32비트 정수입니다.
speaker_gender: 화자의 성별을 나타내는 문자열입니다.
environment: 녹화 환경을 나타내는 문자열입니다.
텍스트: 기록된 텍스트 내용을 나타내는 문자열 유형입니다.
topk_salient_terms: 키워드를 나타내는 문자열 목록입니다.
topk_salient_terms_timestamps: 키워드의 타임스탬프를 나타내는 부동 소수점 숫자 목록입니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

간단한 음성 질문 데이터 세트 | 데이터 세트 | HyperAI초신경