HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer متعدد الوسائط مُحسَّن محليًا لل erk reconocimiento continuo للغة الإشارة

Gerasimos Potamianos Katerina Papadimitriou

الملخص

في هذه الورقة، نُقدِّم نهجًا جديدًا يعتمد على نموذج الترانسفورمر (Transformer) للإعراف المستمر لغة الإشارة (CSLR) من مقاطع الفيديو، بهدف معالجة العيوب التي تُظهرها النماذج التقليدية المبنية على الترانسفورمر في تعلُّم السياق الدلالي المحلي لغة الإشارة. وبشكل محدد، يعتمد النموذج المقترح على مكوَّنين مختلفين: (أ) وحدة RNN تعتمد على نافذة زمنية لالتقاط السياق الزمني المحلي، و(ب) مشفر ترانسفورمر مُحسَّن من خلال نمذجة محلية باستخدام الانحراف الغاوسي والمعلومات الموضعية النسبية، بالإضافة إلى نمذجة البنية الشاملة من خلال الانتباه متعدد الرؤوس. ولتحسين أداء النموذج بشكل أكبر، نصمم إطارًا متعدد الوسائط يطبِّق النموذج المقترح على كل من تيارات الإشارة البصرية والحركة، ونُسَمِّي النتائج الاحتمالية من خلال تقنية CTC التوجيهية. علاوةً على ذلك، نحقق مواءمة بين السمات البصرية وتسلسل الكلمات (gloss sequence) من خلال دمج خسارة الاستخلاص المعرفي (knowledge distillation loss). وقد أظهرت التقييمات التجريبية على مجموعتي بيانات شهيرتين لغة الإشارة الألمانية، تفوق النموذج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Transformer متعدد الوسائط مُحسَّن محليًا لل erk reconocimiento continuo للغة الإشارة | مستندات | HyperAI