Whisper Web 온라인 음성 인식 도구

소개
Whisper는 OpenAI가 2023년에 소스를 공개한 음성-텍스트 변환 모델입니다. Whisper의 생성 효과는 널리 호평을 받았습니다. 이 튜토리얼은 GitHub의 오픈소스 프로젝트인 Whisper Web을 기반으로 하며, 브라우저에서 Whisper를 직접 실행합니다.
Whisper는 음성 인식을 위해 ML을 사용하며 WebGPU를 사용하여 가속화할 수 있습니다. 100개 이상의 언어로 온라인/로컬 오디오 파일 업로드와 즉시 녹음을 지원합니다. 인식된 텍스트는 TXT 및 JSON 파일 형식으로 내보낼 수 있으며, 영어로 직접 번역할 수도 있습니다.
효과 표시

실행 방법 (컨테이너 시작 후 초기화까지 약 10초 소요, 이후 다음 작업 수행)
1. 컨테이너를 복제하고 시작한 후 API를 브라우저에 복사합니다.

2. 온라인/로컬 업로드 또는 즉시 녹음을 통해 오디오 파일을 가져옵니다.

3. 귀하의 필요에 따라 모델을 선택하세요

4. 모델 선정 완료 후 직접 결과 생성
