HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل الكلام السمعي البصري من خلال التنبؤ بالعنقود المتعدد الأوضاع المقنّع

Shi Bowen ; Hsu Wei-Ning ; Lakhotia Kushal ; Mohamed Abdelrahman

الملخص

تسجيلات الفيديو للكلام تحتوي على معلومات صوتية وبصرية مرتبطة، مما يوفر إشارة قوية لتعلم تمثيل الكلام من حركات شفتي المتحدث والصوت المنتج. نقدم إطارًا ذاتي الإشراف لتعلم التمثيل الصوتي والبصري للكلام يُعرف بـ BERT الوحدة الخفية الصوتية والبصرية (AV-HuBERT)، والذي يقوم بتغطية مدخلات الفيديو متعددة الأقنية ويتوقع الوحدات الخفية متعددة الوسائط التي يتم اكتشافها تلقائيًا وتحسينها بشكل تكراري.يتعلم AV-HuBERT تمثيل الكلام الصوتي والبصري القوي الذي يستفيد منه كل من قراءة الشفتين والتعرف الآلي على الكلام. على أكبر مقاييس الأداء العامة لقراءة الشفتين LRS3 (433 ساعة)، يحقق AV-HuBERT معدل خطأ الكلمات (WER) بنسبة 32.5% باستخدام فقط 30 ساعة من البيانات المصنفة، مما يتفوق على أحدث نهج سابق في هذا المجال (33.6%) الذي تم تدريبه باستخدام بيانات فيديو مكتوبة بمقدار ألف مرة أكثر (31K ساعة). يتم خفض معدل خطأ الكلمات لقراءة الشفتين إلى 26.9% عند استخدام جميع 433 ساعة من البيانات المصنفة في LRS3 مع التدريب الذاتي.استخدام تمثيلنا الصوتي والبصري في نفس المقاييس للأداء للتعرف على الكلام بالصوت فقط يؤدي إلى خفض نسبي بمعدل خطأ الكلمات بنسبة 40% مقارنة بأفضل أداء سابق (1.3% مقابل 2.3%). يمكن الوصول إلى كودنا ونماذجنا عبر الرابط:https://github.com/facebookresearch/av_hubert


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp