HyperAI초신경

Voxtral-Mini-3B-2507 음성 이해 모델 데모

1. 튜토리얼 소개

Voxtral은 Mistral AI가 2025년 7월에 출시한 고급 오디오 모델입니다. 탁월한 음성 전사 및 심층 이해 기능을 기반으로 음성을 자연스러운 인간-컴퓨터 상호작용 방식으로 발전시킵니다. Voxtral은 각각 프로덕션 규모 및 로컬 배포에 적합한 24B 및 3B 버전으로 제공됩니다. Voxtral은 다국어, 장문 텍스트 컨텍스트, 내장 질의응답 및 요약 기능을 지원하며 백엔드 함수 호출을 직접 트리거할 수 있습니다. Voxtral의 성능은 여러 벤치마크에서 기존 오픈 소스 모델 및 독점 API를 능가하는 동시에, 비용이 저렴하고 다양한 시나리오에서 널리 사용되어 음성 상호작용의 대중화에 기여합니다.

주요 특징:

  • 긴 텍스트 문맥 처리: 최대 30분 분량의 오디오 필사본과 40분 분량의 오디오 이해를 지원하며, 복잡한 장문 콘텐츠를 처리할 수 있습니다.
  • 내장된 Q&A 및 요약 기능: 오디오 콘텐츠에 대한 질문을 직접 하거나 추가 ASR 및 언어 모델 없이도 구조화된 요약을 생성할 수 있습니다.
  • 다국어 지원: 자동 언어 감지, 여러 공통 언어(예: 영어, 스페인어, 프랑스어, 포르투갈어, 힌디어, 독일어 등) 지원으로 글로벌 사용자의 요구를 충족합니다.
  • 음성 트리거 기능 호출: 중간 구문 분석 단계 없이 사용자 음성 의도에 따라 백엔드 기능, 워크플로 또는 API 호출을 직접 트리거합니다.
  • 텍스트 이해 기능: Mistral Small 3.1의 텍스트 이해 기능이 유지되어 텍스트 입력과 처리를 지원합니다.
  • 최적화된 전사 성능: 대규모 애플리케이션에 적합하고 비용 효율적인 고도로 최적화된 전사 엔드포인트를 제공합니다.

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090이며, 이 튜토리얼에 배포된 모델은 Voxtral-Mini-3B-2507입니다. 테스트를 위해 오디오 전사(Audio Transcription)와 오디오 이해(Audio Understanding) 두 가지 예제가 제공됩니다.

부록: 24B Voxtral 모델 데모의 원클릭 배포

2. 효과 표시

오디오 전사

오디오 이해

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델 용량이 크므로 5~10분 정도 기다린 후 페이지를 새로고침해 주세요.

1. 오디오 전사

2. 오디오 이해

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓