LipNet: القراءة الشفوية على مستوى الجملة من البداية إلى النهاية

قراءة الشفاه هي مهمة فك النص من حركة فم المتكلم. النهج التقليدي قسم المشكلة إلى مرحلتين: تصميم أو تعلم الخصائص البصرية، والتنبؤ. الطرق الحديثة لقراءة الشفاه العميقة قابلة للتدريب من البداية إلى النهاية (Wand وآخرون، 2016؛ Chung و Zisserman، 2016أ). ومع ذلك، فإن الأعمال الحالية على النماذج التي يتم تدريبها من البداية إلى النهاية تقوم فقط بتصنيف الكلمات وليس التنبؤ بالسلسلة على مستوى الجمل. أظهرت الدراسات أن أداء قراءة الشفاه لدى البشر يزداد مع زيادة طول الكلمات (Easton و Basala، 1982)، مما يشير إلى أهمية الخصائص التي تلتقط السياق الزمني في قناة اتصال غير واضحة المعالم. مستوحىً من هذه الملاحظة، نقدم LipNet، وهو نموذج يربط سلسلة متغيرة الطول من الإطارات الفيديوية بالنص، مستخدماً convolesions spatiotemporal (الCONVOLUTIONS المكانية-الزمانية)، شبكة متكررة (Recurrent Network)، وخسارة تصنيف الزمن المتصل (Connectionist Temporal Classification Loss)، ويتم تدريبه بالكامل من البداية إلى النهاية. حسب علمنا، LipNet هو أول نموذج لقراءة الشفاه على مستوى الجمل الذي يتعلم في الوقت نفسه الخصائص البصرية المكانية-الزمانية ونموذج السلسلة. على مكتبة البيانات GRID، حقق LipNet دقة بنسبة 95.2% في مهمة تقسيم المتحدثين المتداخلين على مستوى الجمل، مما يتفوق على القراء المحترفين لحركة الشفتين والدقة السابقة الأفضل على مستوى الكلمات والتي بلغت نسبة 86.4% (Gergen وآخرون، 2016).请注意,"convolesions spatiotemporal" 是一个笔误,正确的术语应该是 "spatiotemporal convolutions"(时空卷积)。在阿拉伯语中,我们将其翻译为 "الCONVOLUTIONS المكانية-الزمانية" 并在后面加上了英文原词以确保信息的完整性。