شبكة الانتباه الرسمية ذات النوافذ الهرمية ومجموعة بيانات كبيرة للاعتراف باللغة الإشارة الهندية المعزولة

التعرف التلقائي على لغة الإشارة (SL) هو مهمة مهمة في مجتمع رؤية الحاسوب. لبناء نظام قوي للتعرف على لغة الإشارة، نحتاج إلى كمية كبيرة من البيانات التي تفتقر إليها بشكل خاص لغة الإشارة الهندية (ISL). في هذا البحث، نقدم مجموعة بيانات كبيرة الحجم لمفردات متباعدة من لغة الإشارة الهندية ونموذجًا جديدًا للتعرف على لغة الإشارة يعتمد على هيكل الرسم البياني للهيكل العظمي. تشمل هذه المجموعة البيانات 2002 كلمة شائعة تستخدم يوميًا في المجتمع الصم، تم تسجيلها بواسطة 20 شخصًا بالغًا صمًا (10 ذكور و10 إناث) (تحتوي على 40033 فيديو). نقترح نموذج التعرف على لغة الإشارة الذي يُطلق عليه شبكة الانتباه ذات النوافذ الهرمية (HWGAT) باستخدام رسم بياني للجزء العلوي من جسم الإنسان. يحاول HWGAT التقاط الحركات المميزة من خلال إعطاء انتباه لمختلف أجزاء الجسم التي يتم استنتاجها من الرسم البياني للهيكل العظمي. تم تقييم فائدة المجموعة البيانات المقترحة ومدى فعالية النموذج الخاص بنا من خلال التجارب الواسعة. قمنا بتدريب النموذج المقترح مسبقًا على المجموعة البيانات المعروضة وضبطه بدقة عبر مختلف مجموعات بيانات لغة الإشارة، مما زاد أداءه بمقدار 1.10 و0.46 و0.78 و6.84 نقطة مئوية على مجموعات INCLUDE وLSA64 وأUTSL وWLASL على التوالي مقارنة بالنماذج القائمة على النقاط الرئيسية الموجودة حاليًا.请注意,对于不常见的术语,我已在阿拉伯语译文后括号中标注了原文,以确保信息的完整性。例如:"Hierarchical Windowed Graph Attention Network (HWGAT)" 和 "INCLUDE, LSA64, AUTSL and WLASL"。