LCANet: قراءة الشفاه من النهاية إلى النهاية باستخدام انتباه متسلسل CTC

القراءة الآلية للشفاه هي نوع خاص من تقنيات التعرف التلقائي على الكلام (ASR) التي تقوم بتحويل الكلام البشري إلى نص من خلال تفسير بصري لحركة المناطق المرتبطة بالوجه، بما في ذلك الشفاه والوجه واللسان. في الآونة الأخيرة، أظهرت الأساليب القائمة على الشبكات العصبية العميقة في مجال قراءة الشفاه إمكانات كبيرة، وتفوقت في الدقة على قراء البشر ذوي الخبرة في بعض مجموعات البيانات القياسية. ومع ذلك، لا تزال قراءة الشفاه بعيدة عن الحل الكامل، وتُظهر الأساليب الحالية معدلات أخطاء عالية عند التعامل مع البيانات الواقعية (البيانات من الطبيعة). في هذا البحث، نقترح LCANet، وهو نظام لقراءة الشفاه يعتمد على شبكة عصبية عميقة نهائية-إلى-نهائية. تقوم LCANet بتشفير الإطارات الفيديو المدخلة باستخدام شبكة عصبية متعددة الأبعاد ثلاثية الأبعاد (CNN)، وشبكة الطرق (highway network)، وشبكة GRU ثنائية الاتجاه. يُعد المُشفر فعّالًا في التقاط المعلومات الفضائية-الزمنية قصيرة المدى وطويلة المدى. وبشكل أكثر أهمية، تدمج LCANet مُفكّكًا انتقائيًا مُتسلسلًا يعتمد على الانتباه وتقنية CTC لإنتاج النصوص الناتجة. من خلال تسلسل CTC مع الانتباه، يتم تقليل جزئيًا العيب الناتج عن افتراض الاستقلال الشرطي المُعتمد على CTC داخل الطبقات العصبية المخفية، مما يؤدي إلى تحسين ملحوظ في الأداء، بالإضافة إلى تسريع عملية التقارب. أظهرت النتائج التجريبية أن النظام المقترح يحقق معدل خطأ في الرموز (CER) بنسبة 1.3%، ونسبة خطأ في الكلمات (WER) بنسبة 3.0% على قاعدة بيانات GRID، ما يمثل تحسنًا بنسبة 12.3% مقارنة بالأساليب الرائدة حاليًا.