مجموعة بيانات تحسين المساعد الصوتي VoiceAssistant-400K
التاريخ
الحجم
رابط النشر
العلامات
الفئات
VoiceAssistant-400K عبارة عن مجموعة بيانات مُحسّنة للمساعدين الصوتيين. ويهدف هذا إلى مساعدة النموذج على تقليل إنشاء رموز التعليمات البرمجية عند تقديم خدمات المساعد الصوتي وتعزيز التطبيق العملي للنموذج في التطبيقات الحقيقية. تم تطوير مجموعة البيانات هذه لتدريب وتحسين مخرجات الكلام لنموذج Mini-Omni. تم إطلاقه من قبل فريق بحثي من جامعة تسينغهوا في عام 2024. نتائج الورقة ذات الصلة هي "Mini-Omni: نماذج اللغة قادرة على السمع والتحدث أثناء التفكير في البث المباشرميني-أومني هو نموذج لغوي واسع النطاق ومتعدد الوسائط ومفتوح المصدر، يتميز بإمكانيات محادثة آنية وإدخال وإخراج كلامي شامل. من خلال نهج فريد لتوليد الكلام بالتوازي، يتم تحقيق مخرجات منطقية للكلام متوافقة مع القدرات النصية، دون الحاجة إلا إلى بيانات ووحدات إضافية قليلة.
تعمل مجموعة البيانات VoiceAssistant-400K على تحسين محولات الكلام إلى نص والنص إلى كلام من خلال عملية تدريب مكونة من ثلاث مراحل لدعم أداء النماذج عند تقديم خدمات المساعد الصوتي. تتضمن هذه المراحل محاذاة الوسائط، والتدريب على التكيف، والضبط الدقيق للوسائط المتعددة. في مرحلة محاذاة الوسائط، يتم تدريب قدرات التعرف على الكلام وتوليفه في النموذج باستخدام البيانات من التعرف على الكلام وتوليفه. تركز مرحلة تدريب التكيف على تدريب القدرات النصية للنموذج من خلال إدخال الصوت. تستخدم مرحلة الضبط الدقيق متعدد الوسائط النهائية البيانات الاصطناعية لضبط النموذج بأكمله لضمان جودة الناتج متعدد الوسائط.