HyperAI초신경

중국어-LiPS 다중 모달 음성 인식 데이터 세트

날짜

2일 전

기관

발행 주소

huggingface.co

다운로드 도움말

Chinese-LiPS는 2025년 즈위안 연구소와 난카이 대학교에서 발표한 멀티모달 음성 인식 데이터셋입니다. 관련 논문 결과는 "Chinese-LiPS: 입술 읽기와 프레젠테이션 슬라이드를 활용한 중국어 시청각 음성 인식 데이터셋"입니다. "입술 읽기 정보 + 슬라이드 의미 정보"를 결합한 최초의 중국어 멀티모달 음성 인식 데이터셋인 Chinese-LiPS는 중국어 설명, 대중 과학, 교육, 지식 전파와 같은 복잡한 맥락을 목표로 하며, 중국어 멀티모달 음성 인식 기술 발전을 촉진하는 데 전념하고 있습니다.

데이터 세트 기능:

  • 대용량 데이터 크기:Chinese-LiPS는 총 길이가 약 100시간이며, 207명의 전문 화자가 녹음한 고품질 음성 클립 36,208개를 포함하고 있어 대표성과 다양성이 우수합니다.
  • 다양한 주제를 다루고 있습니다: 내용은 과학과 기술, 건강과 웰빙, 문화와 역사, 관광과 탐험, 자동차 산업, 스포츠 이벤트 등 9개 인기 분야를 포괄합니다. 주제는 고르게 분포되어 있어 실제 교육 및 설명의 맥락에서 표현 특성과 용어 밀도를 충분히 반영합니다.
  • 고품질 슬라이드쇼 제작도메인 전문가가 콘텐츠를 디자인하고 주석 작업에 참여하여 슬라이드 텍스트와 이미지 정보의 정확성과 전문성을 보장합니다. PPT 콘텐츠는 명확한 구조와 아름다운 디자인을 자랑하며, 단순한 텍스트가 아닌 풍부한 이미지와 시각적 의미 정보를 담고 있습니다.
  • 고화질 영상 녹화:전문 연설자가 조용한 환경에서 고화질 영상으로 녹화한 영상으로, 입술 읽기 영상(720P)과 슬라이드 영상(1080P)의 두 가지 모드를 포함하여 음성과 입술 움직임의 정확한 정렬을 보장하고 일관되고 신뢰할 수 있는 데이터 품질을 보장합니다.
데이터 분포