HyperAIHyperAI

Command Palette

Search for a command to run...

BSL-1K: توسيع نطاق اعتراف لغة الإشارة المترافقة باستخدام مؤشرات التحدث الشفهي

Samuel Albanie Gül Varol Liliane Momeni Triantafyllos Afouras Joon Son Chung Neil Fox Andrew Zisserman

الملخص

أظهر التقدم الأخير في تصنيف الإيماءات والإجراءات الدقيقة، وكذلك في الترجمة الآلية، إمكانية تحويل اعتراف لغة الإشارة الآلية إلى واقع ملموس. ويعتبر العائق الرئيسي أمام التقدم نحو هذا الهدف هو نقص البيانات التدريبية المناسبة، والذي ينبع من التعقيد العالي في ترميز الإشارات، بالإضافة إلى قلة عدد المُصنّفين المؤهلين. في هذه الدراسة، نقدم نهجًا جديدًا قابلاً للتوسع في جمع البيانات لاعتراف الإشارات في الفيديوهات المستمرة. ونستفيد من الترجمات الضعيفة التزامن للبرامج التلفزيونية، إلى جانب منهجية الكشف عن الكلمات المفتاحية، لتحديد إشارات محددة تلقائيًا ضمن مفردات تضم 1000 إشارة في 1000 ساعة من الفيديو. ونُقدّم المساهمات التالية: (1) نُظهر كيف يمكن استخدام مؤشرات التحدث الشفهي (mouthing cues) من المُشِيرين للحصول على ترميزات عالية الجودة من بيانات الفيديو – النتيجة هي مجموعة بيانات BSL-1K، وهي مجموعة من إشارات لغة الإشارة البريطانية (BSL) بحجم غير مسبوق؛ (2) نُظهر أن بإمكاننا استخدام مجموعة BSL-1K لتدريب نماذج قوية لاعتراف الإشارات المترابطة (co-articulated signs) في لغة الإشارة البريطانية، وأن هذه النماذج تُشكّل أيضًا تدريبًا أوليًا ممتازًا للغات إشارة أخرى ومقاييس معيارية – حيث تفوقنا الحد الأقصى الحالي في كلا المقياسين MSASL وWLASL؛ وأخيرًا، (3) نقترح مجموعات تقييم جديدة كبيرة النطاق لمهام اعتراف الإشارة وتحديد موقعها (sign spotting)، ونقدّم خطوطًا أساسية نأمل أن تُحفّز الأبحاث في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp