HyperAIHyperAI

Command Palette

Search for a command to run...

قراءة الشفاه في البيئة الطبيعية

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

الملخص

الهدف من هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، سواء بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية.مساهماتنا الرئيسية هي: (1) شبكة "مشاهدة، الاستماع، التركيز وكتابة" (WLAS) التي تتعلم تحويل مقاطع الفيديو لحركة الفم إلى حروف؛ (2) استراتيجية التعلم التدريجي لتسريع التدريب وتقليل الانطباع الزائد؛ (3) مجموعة بيانات "قراءة الشفاه للجمل" (LRS) للاعتراف بالكلام البصري، والتي تتكون من أكثر من 100,000 جملة طبيعية من البرامج البريطانية للتلفزيون.نموذج WLAS الذي تم تدريبه على مجموعة بيانات LRS يتفوق في الأداء على جميع الأعمال السابقة في مجموعات البيانات المعيارية لقراءة الشفاه، وأحيانًا بمعدل كبير. أداء قراءة الشفاه هذا يتفوق على أداء القارئ المهني للشفاه في مقاطع الفيديو من قناة بي بي سي البريطانية، كما أظهرنا أيضًا أن المعلومات البصرية تساعد في تحسين أداء الاعتراف بالكلام حتى عندما يكون الصوت متاحًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp