HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

في هذا العمل، نقدم نموذجًا هجينًا يجمع بين CTC/الانتباه (Attention) يستند إلى ResNet-18 ومتغير التحويل المدعم بالتحويلات (Convolution-augmented transformer) المعروف بـ Conformer، والذي يمكن تدريبه بطريقة شاملة من البداية إلى النهاية (end-to-end). وبشكل خاص، يتعلم مُشفر الصوت والصورة استخراج الخصائص مباشرة من البكسلات الخام وأشكال الموجات الصوتية، على التوالي، والتي يتم إدخالها بعد ذلك إلى Conformers ومن ثم تتم عملية الدمج عبر شبكة متعددة الطبقات (Multi-Layer Perceptron - MLP). يتعلم النموذج التعرف على الحروف باستخدام مزيج من CTC وآلية الانتباه. نوضح أن التدريب الشامل من البداية إلى النهاية، بدلاً من استخدام الخصائص البصرية المحسوبة مسبقًا وهو أمر شائع في الأدبيات العلمية، واستخدام Conformer بدلاً من شبكة متكررة (recurrent network)، واستخدام نموذج لغوي مستند إلى التحويلات (transformer-based language model)، يحسن بشكل كبير أداء نموذجنا. نقدم نتائج على أكبر قواعد بيانات متاحة للجمهور للاعتراف بالكلام على مستوى الجملة، وهي Lip Reading Sentences 2 (LRS2) وLip Reading Sentences 3 (LRS3)، على التوالي. تظهر النتائج أن النماذج المقترحة لدينا ترفع مستوى الأداء الرائد بمقدار كبير في التجارب التي تعتمد فقط على الصوت، أو فقط على الصورة، أو على كليهما معًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp