HyperAI초신경

키미오디오: AI가 인간을 이해하게 하세요

1. 튜토리얼 소개

GitHub 스타

이 튜토리얼에서 사용된 컴퓨팅 리소스는 A6000 카드 1개입니다.

Kimi-Audio-7B-Instruct는 KimiTeam이 2025년 4월 28일에 공개한 오픈 소스 오디오 기본 모델입니다. 이 모델은 단일 통합 프레임워크 내에서 다양한 오디오 처리 작업을 처리할 수 있습니다. 관련 논문 결과는 다음과 같습니다.키미오디오 기술 보고서". 주요 기능은 다음과 같습니다.

  • 일반 용도 기능: 자동 음성 인식(ASR), 오디오 질문 답변(AQA), 자동 오디오 자막(AAC), 음성 감정 인식(SER), 사운드 이벤트/장면 분류(SEC/ASC), 종단 간 음성 대화 등 다양한 작업을 처리합니다.
  • 업계 최고의 성능: 다양한 오디오 벤치마크에서 SOTA 수준을 달성했습니다.
  • 대규모 사전 훈련: 1,300만 시간 이상의 다양한 오디오 데이터(음성, 음악, 사운드)와 텍스트 데이터에 대한 사전 훈련을 통해 강력한 오디오 추론과 언어 이해가 가능해졌습니다.
  • 혁신적인 아키텍처: 하이브리드 오디오 입력(연속 음향 벡터 + 개별 의미 태그)과 병렬 처리 기능이 있는 LLM 코어를 사용하여 텍스트와 오디오 태그를 동시에 생성할 수 있습니다.
  • 효율적인 추론: 저지연 오디오 생성을 위한 스트림 매칭 기능을 갖춘 청크 스트리밍 디멀티플렉서입니다.
  • 오픈 소스: 사전 훈련 및 교육 세부 조정을 위한 코드와 모델 체크포인트를 공개하고, 커뮤니티 연구 개발을 촉진하기 위한 포괄적인 평가 툴킷을 공개합니다.

2. 작업 단계

1. 컨테이너를 시작하세요

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 3~5분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

2. 사용 예

사용 지침

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

이 튜토리얼에서는 음성 전사 및 음성 대화라는 두 가지 모듈 테스트를 제공합니다.

각 모듈의 기능은 다음과 같습니다.

음성 전사

식별 결과

음성 대화

대화 결과

3. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

Github 사용자에게 감사드립니다 슈퍼양  이 튜토리얼의 배포. 이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kimiteam2025kimiaudiotechnicalreport,
      title={Kimi-Audio Technical Report}, 
      author={KimiTeam and Ding Ding and Zeqian Ju and Yichong Leng and Songxiang Liu and Tong Liu and Zeyu Shang and Kai Shen and Wei Song and Xu Tan and Heyi Tang and Zhengtao Wang and Chu Wei and Yifei Xin and Xinran Xu and Jianwei Yu and Yutao Zhang and Xinyu Zhou and Y. Charles and Jun Chen and Yanru Chen and Yulun Du and Weiran He and Zhenxing Hu and Guokun Lai and Qingcheng Li and Yangyang Liu and Weidong Sun and Jianzhou Wang and Yuzhi Wang and Yuefeng Wu and Yuxin Wu and Dongchao Yang and Hao Yang and Ying Yang and Zhilin Yang and Aoxiong Yin and Ruibin Yuan and Yutong Zhang and Zaida Zhou},
      year={2025},
      eprint={2504.18425},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2504.18425}, 
}