منذ 8 أشهر

الملخص

في هذا العمل، نقدم نموذجًا هجينًا يجمع بين CTC/الانتباه (Attention) يستند إلى ResNet-18 ومتغير التحويل المدعم بالتحويلات (Convolution-augmented transformer) المعروف بـ Conformer، والذي يمكن تدريبه بطريقة شاملة من البداية إلى النهاية (end-to-end). وبشكل خاص، يتعلم مُشفر الصوت والصورة استخراج الخصائص مباشرة من البكسلات الخام وأشكال الموجات الصوتية، على التوالي، والتي يتم إدخالها بعد ذلك إلى Conformers ومن ثم تتم عملية الدمج عبر شبكة متعددة الطبقات (Multi-Layer Perceptron - MLP). يتعلم النموذج التعرف على الحروف باستخدام مزيج من CTC وآلية الانتباه. نوضح أن التدريب الشامل من البداية إلى النهاية، بدلاً من استخدام الخصائص البصرية المحسوبة مسبقًا وهو أمر شائع في الأدبيات العلمية، واستخدام Conformer بدلاً من شبكة متكررة (recurrent network)، واستخدام نموذج لغوي مستند إلى التحويلات (transformer-based language model)، يحسن بشكل كبير أداء نموذجنا. نقدم نتائج على أكبر قواعد بيانات متاحة للجمهور للاعتراف بالكلام على مستوى الجملة، وهي Lip Reading Sentences 2 (LRS2) وLip Reading Sentences 3 (LRS3)، على التوالي. تظهر النتائج أن النماذج المقترحة لدينا ترفع مستوى الأداء الرائد بمقدار كبير في التجارب التي تعتمد فقط على الصوت، أو فقط على الصورة، أو على كليهما معًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters