이 튜토리얼에서는 단일 RTX 4090 컴퓨팅 리소스를 사용하며, 모델은 영어 음성 인식만 지원합니다.
Parakeet-tdt-0.6b-v2는 6억 개의 파라미터를 가진 고성능 자동 음성 인식(ASR) 모델로, 2025년 5월 NVIDIA에서 오픈소스로 공개되었습니다. 이는 Parakeet 시리즈의 최신 버전입니다. FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 하는 이 모델은 최대 24분 길이의 영어 음성 파일을 한 번에 효율적으로 텍스트로 변환할 수 있습니다. 높은 정확도와 낮은 지연 시간을 요구하는 영어 음성 텍스트 변환 작업에 특화되어 있으며, 고객 서비스 대화, 회의록, 음성 비서와 같은 실시간 영어 음성-텍스트 변환 시나리오에 적합합니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. 효율적인 음성 인식을 위한 선형 확장 가능한 주의력을 갖춘 빠른 컨포머 .
2. 작업 단계
1. 컨테이너를 시작하세요
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.
2. 데모 사용
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있습니다.
이 튜토리얼에서는 음성 파일 업로드를 지원할 뿐만 아니라 음성 입력도 지원합니다.
인식 결과는 CSV 파일로 저장할 수 있습니다.
3. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
이 튜토리얼에서는 단일 RTX 4090 컴퓨팅 리소스를 사용하며, 모델은 영어 음성 인식만 지원합니다.
Parakeet-tdt-0.6b-v2는 6억 개의 파라미터를 가진 고성능 자동 음성 인식(ASR) 모델로, 2025년 5월 NVIDIA에서 오픈소스로 공개되었습니다. 이는 Parakeet 시리즈의 최신 버전입니다. FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 하는 이 모델은 최대 24분 길이의 영어 음성 파일을 한 번에 효율적으로 텍스트로 변환할 수 있습니다. 높은 정확도와 낮은 지연 시간을 요구하는 영어 음성 텍스트 변환 작업에 특화되어 있으며, 고객 서비스 대화, 회의록, 음성 비서와 같은 실시간 영어 음성-텍스트 변환 시나리오에 적합합니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. 효율적인 음성 인식을 위한 선형 확장 가능한 주의력을 갖춘 빠른 컨포머 .
2. 작업 단계
1. 컨테이너를 시작하세요
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.
2. 데모 사용
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있습니다.
이 튜토리얼에서는 음성 파일 업로드를 지원할 뿐만 아니라 음성 입력도 지원합니다.
인식 결과는 CSV 파일로 저장할 수 있습니다.
3. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓