NVIDIA 오픈소스 음성 인식 모델 ParaKeet-tdt-0.6b-v2는 단 1초 만에 1시간 분량의 오디오를 필사하여 Pichai Ge의 음성을 정확하게 식별할 수 있습니다.

지능형 고객 서비스에서 실시간으로 사용자 의도를 이해하거나, 회의록, 인터뷰 편집, 자막 생성과 같은 시나리오에서 다양한 말투와 악센트가 있는 오디오를 인식하는 등 지속적으로 업그레이드되는 사용 요구 사항으로 인해 음성 인식 기술에 대한 요구 사항이 더욱 엄격해지고 있습니다. 예를 들어, 인식 속도, 사용 비용, 소음이 많은 환경에서의 정확도와 안정성 등입니다.
위의 과제에 직면하여,NVIDIA는 최근 음성 인식 모델 ParaKeet-tdt-0.6b-v2를 오픈 소스로 공개했습니다.FastConformer 아키텍처와 NVIDIA가 자체 개발한 TDT(TransducerDecoderTransformer) 기술을 기반으로 극한의 추론 효율성을 달성합니다.60분 분량의 오디오 콘텐츠를 처리하는 데 1초밖에 걸리지 않습니다.모든 주류 폐쇄형 소스 모델을 넘어서. 또한, 이 모델은 고정밀, 저지연 영어 음성 변환 작업에 중점을 두고 있으며, 실시간 영어 음성-텍스트 변환 시나리오에 적합하여 언어 간 의사소통을 쉽게 하고 회의 기록을 더욱 원활하게 만듭니다.
현재,HyperAI 공식 웹사이트의 "튜토리얼" 섹션에서 "ParaKeet-tdt-0.6b-v2 음성 인식" 데모가 출시되었습니다.아래 링크를 클릭하여 원클릭 배포 튜토리얼을 경험해보세요.
튜토리얼 링크:
데모 실행
1. hyper.ai 홈페이지에 접속한 후, "튜토리얼" 페이지를 선택하고 "ParaKeet-tdt-0.6b-v2 음성 인식"을 선택한 후, "이 튜토리얼을 온라인으로 실행"을 클릭하세요.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090"과 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼은 4가지 청구 방법을 제공합니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간"을 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.


효과 시연
"오디오 파일 업로드"에서 오디오 파일을 업로드한 다음 인식을 위해 "업로드한 파일 필사"를 클릭하세요. 여기에 Google I/O 기조 연설 오디오 클립을 업로드했는데, 모델이 이를 빠르고 정확하게 인식했습니다.

음성 인식의 내용은 다음과 같습니다.
안녕하세요 여러분, 좋은 아침입니다.
Google.io에 오신 것을 환영합니다.
오늘이 쌍둥이자리 시즌의 시작이라는 걸 알게 됐어요.
실제로 무슨 대단한 일이 일어났는지 잘 모르겠습니다.
Google에서는 매일이 쌍둥이자리 시즌입니다.
몇 주 전, 제미니는 포켓몬 블루를 완성했습니다.
또한 ParaKeet-tdt-0.6b-v2는 음성 입력도 지원합니다. "마이크"를 클릭한 다음 "녹음"을 클릭하고 녹음이 완료되면 "업로드한 파일 필사"를 클릭하여 인식합니다.

위의 내용은 이번에 HyperAI가 추천하는 실용적인 튜토리얼입니다. 누구나 체험해 볼 수 있습니다!
튜토리얼 링크: