HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام البصري على نطاق واسع

الملخص

يقدم هذا العمل حلاً قابلاً للتوسع لمشكلة التعرف على الكلام البصري المفتوح. لتحقيق ذلك، قمنا ببناء أكبر مجموعة بيانات موجودة للتعرف على الكلام البصري، تتكون من أزواج من النصوص ومقاطع فيديو لوجوه تتحدث (3,886 ساعة من الفيديو). وفي الوقت نفسه، صممنا ودربنا نظامًا متكاملًا للقراءة من الشفتين، يتضمن خط أنابيب معالجة الفيديو يربط بين الفيديو الخام ومقاطع فيديو ثابتة للشفتين وسلسلة من الصوتيات، وشبكة عصبية عميقة قابلة للتوسع تربط بين مقاطع فيديو الشفتين ومجموعات توزيع الصوتيات، ومحقق كلام على مستوى الإنتاج ينتج سلاسل كلمات. حقق النظام المقترح معدل خطأ الكلمات (WER) بنسبة 40.9% كما تم قياسه على مجموعة اختبار محفوظة. بالمقارنة مع ذلك، يحقق المحترفون في القراءة من الشفتين معدلات خطأ الكلمات (WER) بنسبة 86.4% أو 92.9% على نفس مجموعة البيانات عندما لديهم إمكانية الوصول إلى أنواع إضافية من المعلومات السياقية. يحسن نهجنا بشكل كبير على نهجات القراءة من الشفتين الأخرى، بما في ذلك نسخ مختلفة من LipNet و Watch, Attend, and Spell (WAS)، والتي تكون قادرة فقط على تحقيق معدلات خطأ الكلمات (WER) بنسبة 89.8% و 76.8% على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp