HyperAIHyperAI

Command Palette

Search for a command to run...

LipNet: القراءة الشفوية على مستوى الجملة من البداية إلى النهاية

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

قراءة الشفاه هي مهمة فك النص من حركة فم المتكلم. النهج التقليدي قسم المشكلة إلى مرحلتين: تصميم أو تعلم الخصائص البصرية، والتنبؤ. الطرق الحديثة لقراءة الشفاه العميقة قابلة للتدريب من البداية إلى النهاية (Wand وآخرون، 2016؛ Chung و Zisserman، 2016أ). ومع ذلك، فإن الأعمال الحالية على النماذج التي يتم تدريبها من البداية إلى النهاية تقوم فقط بتصنيف الكلمات وليس التنبؤ بالسلسلة على مستوى الجمل. أظهرت الدراسات أن أداء قراءة الشفاه لدى البشر يزداد مع زيادة طول الكلمات (Easton و Basala، 1982)، مما يشير إلى أهمية الخصائص التي تلتقط السياق الزمني في قناة اتصال غير واضحة المعالم. مستوحىً من هذه الملاحظة، نقدم LipNet، وهو نموذج يربط سلسلة متغيرة الطول من الإطارات الفيديوية بالنص، مستخدماً convolesions spatiotemporal (الCONVOLUTIONS المكانية-الزمانية)، شبكة متكررة (Recurrent Network)، وخسارة تصنيف الزمن المتصل (Connectionist Temporal Classification Loss)، ويتم تدريبه بالكامل من البداية إلى النهاية. حسب علمنا، LipNet هو أول نموذج لقراءة الشفاه على مستوى الجمل الذي يتعلم في الوقت نفسه الخصائص البصرية المكانية-الزمانية ونموذج السلسلة. على مكتبة البيانات GRID، حقق LipNet دقة بنسبة 95.2% في مهمة تقسيم المتحدثين المتداخلين على مستوى الجمل، مما يتفوق على القراء المحترفين لحركة الشفتين والدقة السابقة الأفضل على مستوى الكلمات والتي بلغت نسبة 86.4% (Gergen وآخرون، 2016).请注意,"convolesions spatiotemporal" 是一个笔误,正确的术语应该是 "spatiotemporal convolutions"(时空卷积)。在阿拉伯语中,我们将其翻译为 "الCONVOLUTIONS المكانية-الزمانية" 并在后面加上了英文原词以确保信息的完整性。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp