HyperAIHyperAI

Command Palette

Search for a command to run...

أساس بسيط للتعلم المن軌ي متعدد الوسائط لترجمة لغة الإشارة

Yutong Chen Fangyun Wei Xiao Sun Zhirong Wu Stephen Lin

الملخص

تُقدّم هذه الورقةbaseline بسيطًا للتعلم الناقل في ترجمة لغة الإشارة. تحتوي المجموعات الحالية لبيانات لغة الإشارة (مثل PHOENIX-2014T وCSL-Daily) على ما يقارب 10,000 إلى 20,000 زوج من مقاطع الفيديو الخاصة بالإشارات، والتعليقات النصية (gloss)، والنصوص، وهي أصغر بمرتبة من التوافقيات المستخدمة في تدريب نماذج ترجمة اللغات الشفهية. وبالتالي، يُعدّ نقص البيانات عقبة رئيسية في تدريب نماذج فعّالة لترجمة لغة الإشارة. ولتقليل هذه المشكلة، نقترح تدريب النموذج تدريجيًا من خلال بيانات عامة تضم كميات كبيرة من الإشراف الخارجي، ثم الانتقال إلى بيانات داخل المجال (within-domain). وبشكل محدد، نُدرّب شبكة الرؤية الخاصة بتحويل الإشارة إلى مصطلح (sign-to-gloss) على مجال عام يشمل الأفعال البشرية، وعلى مجال محدد يحتوي على بيانات ترجمة الإشارة إلى مصطلح، ونُدرّب شبكة الترجمة من المصطلح إلى النص (gloss-to-text) على مجال عام يشمل مجموعات متعددة اللغات، وعلى مجال محدد يحتوي على بيانات ترجمة المصطلح إلى نص. ثم يتم تحسين النموذج المشترك باستخدام وحدة إضافية تُسمّى "مُحوّل الرؤية واللغة" (visual-language mapper) التي تربط بين الشبكتين. يتفوّق هذا baseline البسيط على النتائج السابقة المُصنّفة كأفضل نتائج في معيارين لترجمة لغة الإشارة، مما يُظهر فعالية التعلم الناقل. وبفضل بساطته وأداؤه القوي، يمكن لهذا النهج أن يُشكّل قاعدة متينة للأبحاث المستقبلية. يمكن الوصول إلى الكود والنماذج من خلال: https://github.com/FangyunWei/SLRT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp