AUTSL: مجموعة بيانات تركية لإشارات كبيرة بحجم كبير متعددة الوسائط وطرق أساسية

تمثيل الإشارة يُعدّ مشكلة صعبة تتطلب تحديد الإشارات من خلال التراكيب المحلية والعالمية المتزامنة لعدة مصادر، مثل شكل اليد واتجاهها، وحركات اليد، ووضعية الجسم، وتعبيرات الوجه. لا يزال حل هذه المشكلة حسابيًا لفهارس كبيرة من الإشارات في البيئات الواقعية تحديًا، حتى مع استخدام أحدث النماذج. في هذه الدراسة، نقدّم مجموعة بيانات جديدة كبيرة الحجم متعددة الوسائط للغة الإشارة التركية (AUTSL) مع معيار مرجعي، ونقدّم نماذج أساسية لتقييم الأداء. تتكون مجموعتنا من 226 إشارة أُدِّيت من قبل 43 مُشِيرًا مختلفًا، وتضم 38,336 عينة فيديو منفصلة للإشارات. تشمل العينات تنوّعًا واسعًا في الخلفيات، مُسجّلة في بيئات داخلية وخارجية. كما تختلف المواقع المكانية وضعيات المُشِيرين في التسجيلات. تم تسجيل كل عينة باستخدام جهاز Microsoft Kinect v2، وتحتوي على وسائط RGB والعمق والهيكل العظمي. أعدنا إعداد مجموعتي تدريب واختبار معياريتين لإجراء تقييمات مستقلة عن المستخدم. قمنا بتدريب عدة نماذج تعتمد على التعلم العميق، وقمنا بتقييمها تجريبيًا باستخدام المعيار؛ استخدمنا الشبكات العصبية التلافيفية (CNNs) لاستخراج الميزات، والنموذج المُتسلسل الأحادي الاتجاه (unidirectional LSTM) والثنائي الاتجاه (bidirectional LSTM) لتمثيل المعلومات الزمنية. كما أدخلنا وحدات تجميع الميزات (feature pooling) والانتباه الزمني (temporal attention) إلى نماذجنا لتحسين الأداء. قمنا بتقييم نماذجنا الأساسية على مجموعتي بيانات AUTSL وMontalbano. حققت نماذجنا نتائج تنافسية مع أفضل الأساليب الحالية على مجموعة بيانات Montalbano، حيث بلغت الدقة 96.11%. وفي مجموعات تقسيم عشوائية (random train-test splits) على مجموعة AUTSL، حققت نماذجنا أداءً يصل إلى 95.95% دقة. أما في المعيار المُقترح المستقل عن المستخدم، فقد حققت أفضل نموذج أساسي لدينا دقة بلغت 62.02%. تُظهر الفجوات في أداء النماذج نفسها التحديات الجوهرية المتأصلة في مجموعتنا المعيارية. مجموعتنا المعيارية (AUTSL) متوفرة للجمهور عبر الرابط: https://cvml.ankara.edu.tr.