نموذج BERT بسيط ولكنه فعّال لتتبع حالة المحادثة في الأنظمة ذات الموارد المحدودة

في نظام حوار موجه للمهمة، يهدف تتبع حالة الحوار (DST) إلى مراقبة حالة المحادثة استنادًا إلى سجل الحوار. ومؤخرًا، تم اقتراح العديد من الطرق القائمة على التعلم العميق لأداء هذه المهمة. وعلى الرغم من الأداء المبهر الذي تحققه هذه الأساليب، إلا أن البنية المعمارية الحالية للنماذج العصبية لـ DST تكون غالبًا معقدة جدًا من حيث التصميم وتعقيد المفاهيم، مما يجعل تنفيذها وتصحيح الأخطاء فيها والحفاظ عليها صعبًا في البيئات الإنتاجية. في هذه الدراسة، نقترح نموذجًا بسيطًا ولكن فعّالًا لـ DST يستند إلى BERT. وبالإضافة إلى بساطته، يتمتع نهجنا بعدة مزايا أخرى: (أ) لا يزداد عدد المعلمات مع حجم المجموعة المفاهيمية (ontology)، (ب) يمكن للنموذج العمل في بيئات تتغير فيها المجموعة المفاهيمية للنطاق ديناميكيًا. وأظهرت النتائج التجريبية أن النموذج القائم على BERT يتفوق بشكل كبير على الأساليب السابقة، ويحقق نتائج جديدة قياسية على مجموعة بيانات WoZ 2.0 القياسية. وأخيرًا، ولجعل النموذج صغيرًا وسريعًا بما يكفي ليعمل في الأنظمة ذات الموارد المحدودة، قمنا بتطبيق تقنية تبادل المعرفة (knowledge distillation) لضغط النموذج. وتمكّن النموذج المضغوط النهائي من تحقيق نتائج مماثلة للنموذج الأصلي، مع أن حجمه أصغر بثمانية أضعاف وسرعته أسرع بسبعة أضعاف.