HyperAI초신경

온라인 튜토리얼 | Mistral AI의 첫 번째 오픈 소스 오디오 모델 Voxtral, 24B 및 3B 버전은 다중 시나리오 음성 심층 이해를 고려합니다.

特色图像

인간에게 가장 자연스러운 상호작용 방식인 음성은 점차 인간-컴퓨터 상호작용의 핵심으로 자리 잡고 있습니다. 음성 상호작용이 대중화됨에 따라 오디오 모델 또한 수요에 맞춰 끊임없이 혁신하고 최적화되고 있습니다.그러나 급속한 발전은 시장 공급의 양극화를 초래합니다. 저비용 오픈소스 모델은 높은 오류율과 취약한 의미 이해와 같은 문제에 더 취약한 반면, 고비용 클로즈드소스 모델은 일반적으로 비용이 많이 들고 배포에 제약이 있습니다. 두 모델 모두 다양한 요구를 충족하기 어렵습니다.

이를 바탕으로,Mistral AI는 최근 음성 지능 시장의 문제점에 초점을 맞춘 오픈 소스 고성능 저비용의 첫 번째 고급 오디오 모델인 Voxtral을 공식 출시했습니다.이 모델은 24B와 3B 두 가지 버전으로 제공됩니다. 전자는 기업 규모의 대규모 배포에 적합하며, 후자는 개별 소규모 배포의 진입 장벽을 낮춰줍니다. 기능 측면에서 Voxtral은 탁월한 음성 전사 및 심층 이해 기능을 기반으로 다국어 지원, 장문 텍스트 처리, 내장 질의응답 및 요약 기능을 제공하며, 여러 벤치마크에서 기존 오픈소스 오디오 모델을 능가하는 성능을 자랑합니다. 동시에 비용도 저렴하고 다양한 시나리오에서 널리 사용되어 음성 상호작용의 대중화에 기여합니다.

Voxtral은 음성 상호작용 모델의 질적 변화를 '사용 가능한' 수준에서 '사용하기 쉬운' 수준으로 촉진하기 위해 기술을 사용하고 있습니다.이는 고성능 오디오 모델에 대한 시장 수요를 충족할 뿐만 아니라 음성 상호작용의 적용 시나리오를 확대하여 자연스러운 대화의 지능적 생태적 초석을 진정으로 구축합니다.

「Voxtral-Small-3B/24B-2507 음성 이해 모델 데모」HyperAI 공식 웹사이트(hyper.ai)의 "튜토리얼" 섹션이 이제 온라인에 공개되었습니다."더 정확하게 듣고, 더 깊이 이해할 수 있는" 음성 상호작용의 몰입형 경험을 시작해 보세요. 그리고 고급 오디오 모델의 새로운 혁신을 목격하게 될 겁니다!

튜토리얼 링크:

* Voxtral-Mini-3B-2507 음성 이해 모델 데모:

https://go.hyper.ai/5Q9uT

Voxtral-Small-24B-2507 음성 이해 모델 데모:

https://go.hyper.ai/p4X0s

저자는 "F1: 와일드 레이스"의 주연 배우 브래드 피트와 CCTV 인터뷰에 응한 팝마트 설립자 왕닝의 인터뷰 영상을 사용하여 테스트했습니다. 생성된 결과는 매우 이상적이었으며, Voxtral의 강력한 기능을 검증했습니다.

오디오 필사 예시
오디오 이해 예

데모 실행

1. hyper.ai 홈페이지에 접속한 후, "튜토리얼" 페이지를 선택하고, "Voxtral-Mini-3B-2507 음성 이해 모델 데모"를 선택한 후, "이 튜토리얼을 온라인으로 실행"을 클릭하세요.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay as you go" 또는 "Daily/Weekly/Monthly Package"를 선택한 후 "Continue"를 클릭하세요. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 4090 4시간 + CPU 무료 사용 시간 5시간을 받으실 수 있습니다!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 리소스가 할당될 때까지 기다리세요. 첫 번째 복제에는 약 3분이 소요됩니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동하세요. API 주소 접근 기능을 사용하려면 실명 인증을 완료해야 합니다.

효과 시연

저자는 "F1: 와일드 레이스"의 주연 배우 브래드 피트와 CCTV 인터뷰에 응한 팝마트 설립자 왕닝의 인터뷰 영상을 사용하여 테스트했습니다. 생성된 결과는 매우 이상적이었으며, Voxtral의 강력한 기능을 검증했습니다.

"오디오 변환" 테스트 기능을 선택하고 오디오 클립을 업로드한 후, 언어를 선택하고 "오디오 변환"을 클릭하세요. 잠시 후 결과가 생성됩니다.

"오디오 이해" 테스트 기능을 선택하고, 오디오 클립을 업로드하고, 질문을 입력하고, "질의 제출"을 클릭하면 잠시 후에 결과가 생성됩니다.

또한, Voxtral에서 제공하는 24B 버전은 엔터프라이즈급 대규모 배포에 적합합니다. HyperAI 공식 웹사이트(hyper.ai)의 "튜토리얼" 섹션에서 지금 바로 체험해 보실 수 있습니다!

튜토리얼 링크:

* Voxtral-Mini-3B-2507 음성 이해 모델 데모:

https://go.hyper.ai/5Q9uT

Voxtral-Small-24B-2507 음성 이해 모델 데모:

https://go.hyper.ai/p4X0s