HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام السمعي البصري باستخدام بنية هجينة CTC/الانتباه

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

الدراسات الحديثة في مجال التعرف على الكلام تعتمد إما على تصنيف الزمن المتصل (CTC) أو نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالحروف على المستوى الفردي. يفترض CTC الاستقلال الشرطي للأحرف الفردية، بينما يمكن للنماذج القائمة على الانتباه توفير محاذاة غير متتابعة. لذلك، يمكن استخدام خسارة CTC مع نموذج قائم على الانتباه لفرض محاذاة أحادية الاتجاه وفي نفس الوقت التخلص من فرضية الاستقلال الشرطي. في هذه الورقة البحثية، نستخدم المعمارية الهجينة المقترحة حديثًا التي تجمع بين CTC والانتباه للتعرف على الكلام الصوتي-البصري في البيئات الطبيعية. حسب علمنا، هذا هو أول استخدام لمثل هذه المعمارية الهجينة للتعرف على الكلام الصوتي-البصري. نستخدم قاعدة بيانات LRS2 ونظهر أن النموذج الصوتي-البصري المقترح يؤدي إلى انخفاض مطلق بنسبة 1.3% في معدل خطأ الكلمات مقارنة بالنموذج الصوتي فقط ويعمل على تحقيق أفضل الأداء الحالي في قاعدة بيانات LRS2 (معدل خطأ الكلمات 7%). كما نلاحظ أن النموذج الصوتي-البصري يتفوق بشكل كبير على النموذج الصوتي (تحسن مطلق يصل إلى 32.9% في معدل خطأ الكلمات) لعدة أنواع مختلفة من الضوضاء مع انخفاض نسبة الإشارة إلى الضوضاء.关键词:- التعرف على الكلام (speech recognition)- تصنيف الزمن المتصل (CTC) (connectionist temporal classification)- نماذج التحويل من تسلسل إلى تسلسل (sequence-to-sequence models)- الاستقلال الشرطي (conditional independence)- محاذاة غير متتابعة (nonsequential alignments)- المعمارية الهجينة (hybrid architecture)- قاعدة بيانات LRS2 (LRS2 database)- معدل خطأ الكلمات (word error rate)


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp