التحليل التلقائي للشفاه المتسلسل إلى المتسلسل باستخدام خوارزمية التدرج التلقائي الاصطناعي التبادلي

يهدف التعرف على الكلام من خلال حركة الشفتين إلى استخلاص محتوى الكلام من تسلسل حركة الشفتين، ويمكن اعتباره مسألة نمطية من نوع التسلسل إلى التسلسل (seq2seq) التي تُحول تسلسل الصور المدخلة الممثلة لحركة الشفتين إلى تسلسل نصي يمثل محتوى الكلام. ومع ذلك، يعاني النموذج التقليدي لتعلم نماذج seq2seq دائمًا من مشكلتين رئيسيتين: انحياز التعرض الناتج عن استراتيجية "الاستخدام المدرّس" (teacher-forcing)، وعدم التوافق بين هدف التحسين التمييزي (وهو عادةً دالة الخسارة العشوائية) والمعيار النهائي للتقييم (وهو عادةً معدل الخطأ الحرفية/الكلمية). في هذا البحث، نقترح طريقة جديدة تعتمد على التدرج السياسي التوهّمي (PCPG) لمعالجة هاتين المشكلتين. من جهة، نُدخل معيار التقييم (وهو معدل الخطأ الحرفية في هذه الدراسة) على شكل مكافأة لتحسين النموذج جنبًا إلى جنب مع الهدف التمييزي الأصلي. ومن جهة أخرى، مستوحى من خاصية الإدراك المحلي للعمليات التلافيفية (convolutional)، نُطبّق عملية تلافيفية توهّمية على بُعدي المكافأة والخسارة، بهدف أخذ سياق أكثر حول كل خطوة زمنية في الاعتبار، مما يُنتج مكافأة وخطيئة أكثر قوة لدعم عملية التحسين الشاملة. وأخيرًا، نُجري مقارنة شاملة وتقييمًا دقيقًا على معايير على مستوى الكلمة وعلى مستوى الجملة. وتُظهر النتائج تحسينًا ملحوظًا مقارنة بالطرق الأخرى ذات الصلة، وتحقيق أداءً جديدًا في حالة أفضل (state-of-the-art) أو دقة تنافسية على جميع هذه المعايير الصعبة، مما يثبت بوضوح المزايا المتميزة لنهجنا.