HyperAI

مجموعة بيانات تحسين المساعد الصوتي VoiceAssistant-400K

التاريخ

منذ 8 أشهر

الحجم

189.87 GB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

VoiceAssistant-400K عبارة عن مجموعة بيانات مُحسّنة للمساعدين الصوتيين. ويهدف هذا إلى مساعدة النموذج على تقليل إنشاء رموز التعليمات البرمجية عند تقديم خدمات المساعد الصوتي وتعزيز التطبيق العملي للنموذج في التطبيقات الحقيقية. تم تطوير مجموعة البيانات هذه لتدريب وتحسين مخرجات الكلام لنموذج Mini-Omni. تم إطلاقه من قبل فريق بحثي من جامعة تسينغهوا في عام 2024. نتائج الورقة ذات الصلة هي "Mini-Omni: نماذج اللغة قادرة على السمع والتحدث أثناء التفكير في البث المباشرميني-أومني هو نموذج لغوي واسع النطاق ومتعدد الوسائط ومفتوح المصدر، يتميز بإمكانيات محادثة آنية وإدخال وإخراج كلامي شامل. من خلال نهج فريد لتوليد الكلام بالتوازي، يتم تحقيق مخرجات منطقية للكلام متوافقة مع القدرات النصية، دون الحاجة إلا إلى بيانات ووحدات إضافية قليلة.

تعمل مجموعة البيانات VoiceAssistant-400K على تحسين محولات الكلام إلى نص والنص إلى كلام من خلال عملية تدريب مكونة من ثلاث مراحل لدعم أداء النماذج عند تقديم خدمات المساعد الصوتي. تتضمن هذه المراحل محاذاة الوسائط، والتدريب على التكيف، والضبط الدقيق للوسائط المتعددة. في مرحلة محاذاة الوسائط، يتم تدريب قدرات التعرف على الكلام وتوليفه في النموذج باستخدام البيانات من التعرف على الكلام وتوليفه. تركز مرحلة تدريب التكيف على تدريب القدرات النصية للنموذج من خلال إدخال الصوت. تستخدم مرحلة الضبط الدقيق متعدد الوسائط النهائية البيانات الاصطناعية لضبط النموذج بأكمله لضمان جودة الناتج متعدد الوسائط.

VoiceAssistant-400K.torrent
البذر 1التنزيل 1مكتمل 102إجمالي التنزيلات 86
  • VoiceAssistant-400K/
    • README.md
      1.97 KB
    • README.txt
      3.95 KB
      • data/
        • VoiceAssistant-400K.zip
          189.87 GB