HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام السمعي البصري العميق

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

الملخص

هدف هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية. إسهاماتنا الرئيسية هي: (1) نقارن بين نموذجين لقراءة الشفاه، أحدهما يستخدم خسارة CTC (CTC loss)، والآخر يستخدم خسارة التحويل من تسلسل إلى تسلسل (sequence-to-sequence loss). يتم بناء كلا النموذجين على أساس هندسة الانتباه الذاتي للمتحول (transformer self-attention architecture)؛ (2) ندرس إلى أي مدى يمكن أن تكون قراءة الشفاه مكملة للتعرف على الكلام الصوتي، خاصة عندما يكون الإشارة الصوتية ضوضائية؛ (3) نقدم ونشر بشكل عام مجموعة بيانات جديدة للتعرف على الكلام السمعي البصري، وهي LRS2-BBC، والتي تتكون من آلاف الجمل الطبيعية من التلفزيون البريطاني. النماذج التي ندربها تتفوق بشكل كبير على أداء جميع الأعمال السابقة في مجموعة بيانات المعايرة لقراءة الشفاه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp