HyperAI초신경

AISHELL-4는 회의 시나리오에서 음성 처리를 위해 8채널 원형 마이크 어레이를 통해 수집된 대규모 실제 녹음된 중국어 음성 데이터 세트입니다.이 데이터 세트는 각각 4~8명의 발표자가 참여한 211개의 녹음된 컨퍼런스 세션으로 구성되어 있으며, 총 길이는 120시간입니다.이 데이터 세트는 세 가지 측면에서 다중 화자 처리의 고급 연구와 실제 응용 시나리오를 결합하는 것을 목표로 합니다. AISHELL-4는 실제로 녹음된 회의를 사용하여 대화에서 짧은 멈춤, 말의 중복, 빠른 화자 회전, 소음 등과 같은 사실적인 음향 효과와 풍부하고 자연스러운 음성 특징을 제공합니다. 동시에 AISHELL에서는 각 회의에 대한 정확한 필사본과 화자 음성 활동이 제공됩니다. 이를 통해 연구자들은 음성 프런트엔드 처리, 음성 인식, 화자 일기 작성과 같은 개별 작업부터 다중 모드 모델링 및 관련 작업의 공동 최적화까지 회의 처리의 다양한 측면을 탐구할 수 있습니다. 연구팀은 또한 이 분야에서 재현 가능한 연구를 촉진하기 위한 기준 시스템으로 PyTorch 기반 훈련 및 평가 프레임워크를 출시했습니다.

AISHELL-4 다중채널 중국어 회의 연설 데이터베이스