HyperAI초신경

GLM-4-Voice 엔드투엔드 중국어-영어 대화 모델

1. 튜토리얼 소개

GLM-4-Voice는 Zhipu AI가 2024년에 출시한 종단간 음성 모델입니다. GLM-4-Voice는 중국어와 영어 음성을 직접 이해하고 생성하고, 실시간 음성 대화를 진행하며, 사용자의 지시에 따라 음성의 감정, 억양, 말하는 속도, 방언 및 기타 속성을 변경할 수 있습니다.

이 튜토리얼 데모에는 "음성 대화"와 "텍스트 대화"라는 두 가지 기능적 모델 구현이 포함되어 있습니다.

GLM-4-Voice는 세 부분으로 구성되어 있습니다.

  • GLM-4-음성 토크나이저: Whisper의 인코더 부분에 벡터 양자화를 추가하고 ASR 데이터에 대한 지도 학습을 통해 연속적인 음성 입력을 개별 토큰으로 변환합니다. 평균적으로 오디오의 각 초를 표현하는 데 필요한 개별 토큰은 12.5개뿐입니다.
  • GLM-4-Voice-Decoder: 스트리밍 추론을 지원하고 CosyVoice의 Flow Matching 모델 구조를 기반으로 학습된 음성 디코더로, 개별 음성 토큰을 연속적인 음성 출력으로 변환합니다. 음성 토큰 10개만 있으면 대화 생성을 시작할 수 있으므로 대화의 종단 간 지연 시간이 줄어듭니다.
  • GLM-4-Voice-9B: GLM-4-9B를 기반으로 음성 모달리티를 사전 훈련하고 정렬하여 개별 음성 토큰을 이해하고 생성합니다.

사전 학습 측면에서, 모델의 지능과 음성 모달리티에서의 합성 표현력이라는 두 가지 어려움을 극복하기 위해 연구팀은 Speech2Speech 작업을 "사용자 오디오를 기반으로 텍스트 답변 만들기"와 "텍스트 답변과 사용자 음성을 기반으로 답변 음성 합성"의 두 가지 작업으로 분리하고, 이 두 가지 작업 형태에 적응하기 위해 텍스트 사전 학습 데이터와 비지도 오디오 데이터를 기반으로 음성-텍스트 인터리브 데이터를 합성하는 두 가지 사전 학습 목표를 설계했습니다. GLM-4-Voice-9B는 GLM-4-9B의 기본 모델을 기반으로 합니다. 수백만 시간 분량의 오디오와 수천억 개의 오디오-텍스트 인터리브 데이터 토큰으로 사전 학습되었으며, 강력한 오디오 이해 및 모델링 기능을 갖추고 있습니다.

정렬 측면에서, 고품질 음성 대화를 지원하기 위해 연구팀은 스트리밍 사고 아키텍처를 설계했습니다. 즉, 사용자의 음성을 기반으로 GLM-4-Voice는 텍스트와 음성 모드의 콘텐츠를 번갈아 스트리밍하고 출력할 수 있습니다. 음성 모드는 텍스트를 참조하여 답변 내용의 높은 품질을 보장하고, 사용자의 음성 명령 요구 사항에 따라 해당 사운드를 변경합니다. 언어 모델의 IQ를 최대한 유지하면서 엔드투엔드 모델링 기능을 갖추고 있으며 지연 시간이 짧습니다. 음성을 합성하려면 최소 20개의 토큰만 출력하면 됩니다.

2. 작업 단계

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

1. 음성 대화

입력 모드 선택 오디오  기능을 클릭하면 음성 파일을 녹음하거나 업로드할 수 있습니다. 관련 샘플링 매개변수는 다음과 같습니다.

  • 온도: 범위 0-1, 온도가 높을수록 생성의 무작위성이 커집니다!
  • 상위 p: 생성 과정에서 다음 단어를 선택할 때 확률이 가장 높은 상위 p 옵션만 고려되도록 지정하는 데 사용됩니다. 이를 통해 텍스트를 생성할 때 다양성을 유지하는 데 도움이 되며 항상 확률이 가장 높은 예측 결과만 선택하는 것을 방지하여 생성된 텍스트를 더욱 풍부하고 다양하게 만들 수 있습니다.
  • 최대 신규 토큰: 생성되는 토큰의 최대 수입니다.

설정을 완료하면 모델은 음성과 텍스트를 실시간으로 출력하지만 네트워크 지연으로 인해 간헐적으로 출력될 수 있습니다. 채팅창에서 음성을 들을 수 있습니다. 전체 페이지 레이아웃은 다음과 같습니다.

그림 1 페이지 레이아웃

语音对话流程
그림 2 음성 대화

2. 텍스트 대화

输入模式选择 **text** 功能,输入对话文本。
点击提交后,模型同时输出文本和语音。
语音对话(输入为文本)
그림 3 음성 대화(텍스트로 입력)

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓