HyperAI초신경

VoiceAssistant-400K는 음성 지원에 최적화된 데이터 세트입니다. 이 연구의 목적은 음성 지원 서비스를 제공할 때 모델이 생성하는 코드 심볼을 줄이고 실제 응용 프로그램에서 모델의 실용성을 향상시키는 것입니다. 이 데이터 세트는 Mini-Omni 모델의 음성 출력을 훈련하고 최적화하기 위해 개발되었습니다. 2024년 청화대학교 연구팀에 의해 출시되었습니다. 관련 논문 결과는 다음과 같습니다.미니 옴니: 언어 모델은 스트리밍에서 생각하면서 듣고 말할 수 있습니다.". Mini-Omni는 실시간 대화 기능과 종단 간 음성 입출력 기능을 갖춘 오픈 소스 멀티모달 대규모 언어 모델입니다. 고유한 텍스트 기반 병렬 생성 방식을 통해 텍스트 기능과 일관된 음성 추론 출력을 얻을 수 있으며, 최소한의 추가 데이터와 모듈만 필요합니다.

VoiceAssistant-400K 데이터 세트는 3단계의 교육 과정을 통해 음성-텍스트 및 텍스트-음성 어댑터를 최적화하여 음성 지원 서비스를 제공할 때 모델의 성능을 지원합니다. 이러한 단계에는 모달리티 정렬, 적응 훈련, 다중 모달 미세 조정이 포함됩니다. 모달리티 정렬 단계에서는 음성 인식 및 음성 합성에서 수집된 데이터를 사용하여 모델의 음성 인식 및 합성 기능을 훈련합니다. 적응 훈련 단계는 오디오 입력을 바탕으로 모델의 텍스트 기능을 훈련하는 데 중점을 둡니다. 최종 멀티모달 미세 조정 단계에서는 합성 데이터를 사용하여 전체 모델을 미세 조정하여 멀티모달 출력의 품질을 보장합니다.

VoiceAssistant-400K 음성 지원 최적화 데이터 세트