التدريب الهرمي للتصنيف التسلسلي في المحادثات الشفهية

تُعد مهام تسمية التسلسلات مثل تحديد أفعال المحادثة وتحديد المشاعر/النوايا عنصراً أساسياً في أنظمة المحادثة الصوتية. في هذا العمل، نقترح منهجية جديدة لتعلم تمثيلات عامة مُعدّلة للحوارات الصوتية، ونُقيّمها على معيار جديد نسميه "مُعيار تقييم تسمية التسلسلات للحوارات الصوتية" (\texttt{SILICONE}). يمتاز \texttt{SILICONE} بأنه غير مرتبط بنموذج معين، ويشمل 10 مجموعات بيانات مختلفة الحجم. نحصل على تمثيلاتنا باستخدام مشفر هرمي مبني على هياكل المحولات (transformer)، ونُوسّع فيه نوعين معروفين جيداً من أهداف التدريب المسبق. يتم إجراء التدريب المسبق على مجموعة OpenSubtitles، وهي مجموعة ضخمة من الحوارات الصوتية تحتوي على أكثر من 2.3 مليار من الرموز (tokens). نُظهر كيف تحقق المشفرات الهرمية نتائج تنافسية باستخدام عدد أقل بشكل متسق من المعاملات مقارنةً بالنماذج الرائدة، كما نُبرز أهميتها في كل من التدريب المسبق والضبط الدقيق (fine-tuning).