اكتشاف وتصنيف حركات اليد في الوقت الحقيقي باستخدام شبكات العصبونات المتشابكة

التعرف الفوري على الإيماءات اليدوية الديناميكية من تدفقات الفيديو هو مهمة صعبة نظرًا لعدة أسباب: (أ) لا يوجد مؤشر على متى يبدأ أو ينتهي الإيماء في الفيديو، (ب) يجب التعرف على الإيماءات المنفذة مرة واحدة فقط، (ج) يجب تصميم البنية الكاملة مع مراعاة ميزانية الذاكرة والطاقة. في هذا البحث، نعالج هذه التحديات من خلال اقتراح بنية هرمية تمكن الأطر المعمارية للشبكات العصبية المت convoled (CNN) التي تعمل دون اتصال بالإنترنت من العمل بشكل فعال عبر الإنترنت باستخدام نهج النافذة المنزلقة. تتكون البنية المقترحة من نموذجين: (1) كاشف وهو بنية CNN خفيفة الوزن للكشف عن الإيماءات، و(2) تصنيف وهو شبكات عصبية متعمقة لتصنيف الإيماءات المكتشفة. لتقدير تنشيطات الإيماءات المكتشفة مرة واحدة، نقترح استخدام مسافة Levenshtein كمعيار تقييمي لأنها قادرة على قياس سوء التصنيفات، وكشف الإيماءات عدة مرات، وعدم الكشف عن الإيماءات في آن واحد. نقيم بنيتنا على مجموعتين من البيانات متاحتين للجمهور - EgoGesture و NVIDIA Dynamic Hand Gesture Datasets - اللتين تتطلبان الكشف والتصنيف الزمني للإيماءات اليدوية المنفذة. يحقق نموذج ResNeXt-101 المستخدم كClassifier دقة تصنيف دون اتصال بالإنترنت تعتبر الأفضل حتى الآن بنسبة 94.04٪ و 83.82٪ لمودالية العمق في مقاييس EgoGesture وNVIDIA على التوالي. في الكشف والتصنيف الفوريين، نحصل على كشوفات مبكرة مهمة بينما نحقق أداءً قريبًا من العمل دون اتصال بالإنترنت. الرموز والنماذج المدربة المستخدمة في هذا البحث متاحة للجمهور.请注意,"convoled" 在原文中可能是 "convolutional" 的拼写错误,因此在翻译时进行了修正。此外,“sliding window approach” 翻译为 “نهج النافذة المنزلقة”,这是该术语在阿拉伯语中的通用译法。其他专业术语如“Levenshtein distance” 和 “ResNeXt-101” 已直接翻译并保留了其英文名称以确保准确性。