HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التسلسلي التكاملي القائم على التجميع المكاني-الزمني للقراءة الشفهية

Shilin Wang Feng Cheng Xingxuan Zhang

الملخص

الأساليب الحالية المُتميزة في قراءة الشفاه تعتمد على هياكل متسلسلة إلى متسلسلة (sequence-to-sequence) المصممة خصيصًا للترجمة الآلية الطبيعية وتقنيات التعرف على الكلام الصوتي. وعليه، لا تستغل هذه الأساليب بالكامل الخصائص الخاصة بديناميات الشفاه، مما يؤدي إلى عيبين رئيسيين. أولاً، لا تُعطى اهتمامًا إضافيًا للعلاقة الزمنية القصيرة النطاق، التي تُعدّ حاسمة في التمثيل من صور الشفاه إلى الفيسيمات (visemes). ثانيًا، يتم التخلص من المعلومات المكانية المحلية في النماذج المتسلسلة الحالية بسبب استخدام التجميع المتوسط العالمي (Global Average Pooling - GAP). ولحل هذين العيبين بشكل فعّال، نقترح كتلة التركيز الزمني (Temporal Focal Block) لوصف التبعيات القصيرة النطاق بشكل كافٍ، بالإضافة إلى وحدة التكامل المكاني-الزمني (Spatio-Temporal Fusion Module - STFM) للحفاظ على المعلومات المكانية المحلية وتقليل أبعاد الميزات في آنٍ واحد. وقد أظهرت نتائج التجارب أن طريقة العمل المقترحة تحقق أداءً مماثلاً للأساليب الرائدة في المجال، ولكن باستخدام كمية أقل بكثير من البيانات التدريبية، ومستخرج ميزات تلافيفي (Convolutional Feature Extractor) أخف وزنًا. كما تم تقليل وقت التدريب بـ 12 يومًا بفضل البنية التلافيفية والآلية الانتباه الذاتي الموضعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم التسلسلي التكاملي القائم على التجميع المكاني-الزمني للقراءة الشفهية | مستندات | HyperAI