منذ 7 أشهر

الملخص

الدراسات الحديثة في مجال التعرف على الكلام تعتمد إما على تصنيف الزمن المتصل (CTC) أو نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالحروف على المستوى الفردي. يفترض CTC الاستقلال الشرطي للأحرف الفردية، بينما يمكن للنماذج القائمة على الانتباه توفير محاذاة غير متتابعة. لذلك، يمكن استخدام خسارة CTC مع نموذج قائم على الانتباه لفرض محاذاة أحادية الاتجاه وفي نفس الوقت التخلص من فرضية الاستقلال الشرطي. في هذه الورقة البحثية، نستخدم المعمارية الهجينة المقترحة حديثًا التي تجمع بين CTC والانتباه للتعرف على الكلام الصوتي-البصري في البيئات الطبيعية. حسب علمنا، هذا هو أول استخدام لمثل هذه المعمارية الهجينة للتعرف على الكلام الصوتي-البصري. نستخدم قاعدة بيانات LRS2 ونظهر أن النموذج الصوتي-البصري المقترح يؤدي إلى انخفاض مطلق بنسبة 1.3% في معدل خطأ الكلمات مقارنة بالنموذج الصوتي فقط ويعمل على تحقيق أفضل الأداء الحالي في قاعدة بيانات LRS2 (معدل خطأ الكلمات 7%). كما نلاحظ أن النموذج الصوتي-البصري يتفوق بشكل كبير على النموذج الصوتي (تحسن مطلق يصل إلى 32.9% في معدل خطأ الكلمات) لعدة أنواع مختلفة من الضوضاء مع انخفاض نسبة الإشارة إلى الضوضاء.关键词：- التعرف على الكلام (speech recognition)- تصنيف الزمن المتصل (CTC) (connectionist temporal classification)- نماذج التحويل من تسلسل إلى تسلسل (sequence-to-sequence models)- الاستقلال الشرطي (conditional independence)- محاذاة غير متتابعة (nonsequential alignments)- المعمارية الهجينة (hybrid architecture)- قاعدة بيانات LRS2 (LRS2 database)- معدل خطأ الكلمات (word error rate)

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري باستخدام بنية هجينة CTC/الانتباه

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري باستخدام بنية هجينة CTC/الانتباه

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الكلام السمعي البصري باستخدام بنية هجينة CTC/الانتباه

Elvis Djukic Yao Chen Zhiqiang Qiu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters