منذ 7 أشهر

الملخص

قراءة الشفاه هي مهمة فك النص من حركة فم المتكلم. النهج التقليدي قسم المشكلة إلى مرحلتين: تصميم أو تعلم الخصائص البصرية، والتنبؤ. الطرق الحديثة لقراءة الشفاه العميقة قابلة للتدريب من البداية إلى النهاية (Wand وآخرون، 2016؛ Chung و Zisserman، 2016أ). ومع ذلك، فإن الأعمال الحالية على النماذج التي يتم تدريبها من البداية إلى النهاية تقوم فقط بتصنيف الكلمات وليس التنبؤ بالسلسلة على مستوى الجمل. أظهرت الدراسات أن أداء قراءة الشفاه لدى البشر يزداد مع زيادة طول الكلمات (Easton و Basala، 1982)، مما يشير إلى أهمية الخصائص التي تلتقط السياق الزمني في قناة اتصال غير واضحة المعالم. مستوحىً من هذه الملاحظة، نقدم LipNet، وهو نموذج يربط سلسلة متغيرة الطول من الإطارات الفيديوية بالنص، مستخدماً convolesions spatiotemporal (الCONVOLUTIONS المكانية-الزمانية)، شبكة متكررة (Recurrent Network)، وخسارة تصنيف الزمن المتصل (Connectionist Temporal Classification Loss)، ويتم تدريبه بالكامل من البداية إلى النهاية. حسب علمنا، LipNet هو أول نموذج لقراءة الشفاه على مستوى الجمل الذي يتعلم في الوقت نفسه الخصائص البصرية المكانية-الزمانية ونموذج السلسلة. على مكتبة البيانات GRID، حقق LipNet دقة بنسبة 95.2% في مهمة تقسيم المتحدثين المتداخلين على مستوى الجمل، مما يتفوق على القراء المحترفين لحركة الشفتين والدقة السابقة الأفضل على مستوى الكلمات والتي بلغت نسبة 86.4% (Gergen وآخرون، 2016).请注意，"convolesions spatiotemporal" 是一个笔误，正确的术语应该是 "spatiotemporal convolutions"（时空卷积）。在阿拉伯语中，我们将其翻译为 "الCONVOLUTIONS المكانية-الزمانية" 并在后面加上了英文原词以确保信息的完整性。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LipNet: القراءة الشفوية على مستوى الجملة من البداية إلى النهاية

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LipNet: القراءة الشفوية على مستوى الجملة من البداية إلى النهاية

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LipNet: القراءة الشفوية على مستوى الجملة من البداية إلى النهاية

Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters