VoiceAssistant-400K 语音助手优化数据集

日期

6 个月前

大小

189.87 GB

机构

清华大学

发布地址

github.com

VoiceAssistant-400K 是一个专门为语音助手优化的数据集,旨在帮助模型在提供语音助手服务时减少生成代码符号,增强模型在真实应用中的实用性。该数据集是为了训练和优化 Mini-Omni 模型的语音输出而开发的,由清华大学的研究团队于 2024 年推出,相关论文成果为「Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming」。 Mini-Omni 是一个开源的多模态大型语言模型,具备实时对话能力和端到端的语音输入输出功能。通过独特的文本指导并行生成方法,实现了与文本能力一致的语音推理输出,仅需极少的额外数据和模块。

VoiceAssistant-400K 数据集通过三阶段训练过程对语音到文本和文本到语音适配器进行优化,以支持模型在提供语音助手服务时的性能。这些阶段包括模态对齐、适配训练和多模态微调。在模态对齐阶段,模型的语音识别和合成能力通过使用语音识别和语音合成的数据来训练。适配训练阶段专注于训练模型在给定音频输入时的文本能力。最后的多模态微调阶段则使用综合数据对整个模型进行微调,以确保多模态输出的质量。

VoiceAssistant-400K.torrent

做种 1

下载中 0

已完成 73

总下载 62

  • VoiceAssistant-400K/
    • README.md
      1.97 KB
    • README.txt
      3.95 KB
      • data/
        • VoiceAssistant-400K.zip
          189.87 GB