HyperAIHyperAI
منذ 9 أيام

AdaBrowse: متصفح فيديو تكيفي للإRecognition المستمر للغة الإشارة بكفاءة

Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng
AdaBrowse: متصفح فيديو تكيفي للإRecognition المستمر للغة الإشارة بكفاءة
الملخص

أثبتت مقاطع الفيديو الخام وجود تكرار كبير في الميزات، حيث في العديد من الحالات، يكفي جزء من الإطارات لتقديم الدقة المطلوبة للتعرف الدقيق. في هذه الورقة، نحن مهتمون بسؤال ما إذا كان يمكن استغلال هذا التكرار بشكل فعّال لتسهيل الاستنتاج الفعّال في التعرف على لغة الإشارة المستمرة (CSLR). نقترح نموذجًا تكيفيًا جديدًا يُسمى AdaBrowse، والذي يُحدد بشكل ديناميكي التسلسل الفرعي الأكثر إفادة من تسلسلات الفيديو المدخلة من خلال معالجة هذه المشكلة كمهمة اتخاذ قرارات متسلسلة. على وجه التحديد، نستخدم أولًا شبكة خفيفة الوزن لمسح سريع لمقاطع الفيديو المدخلة واستخلاص ميزات خشنة. ثم تُدخل هذه الميزات إلى شبكة سياسة لاختيار تسلسل فرعي ذكي للمعالجة. وأخيرًا، يتم استنتاج التسلسل المقابل بواسطة نموذج CSLR العادي لتوقع الجملة. وبما أن جزءًا فقط من الإطارات يتم معالجته في هذه العملية، يمكن تقليل الحسابات الكلية بشكل كبير. وبالإضافة إلى التكرار الزمني، نحن أيضًا مهتمون بسؤال ما إذا كان يمكن دمج التكرار المكاني الداخلي بشكل سلس لتحقيق كفاءة إضافية، أي اختيار ديناميكي لأقل دقة مدخلة لكل عينة، حيث يُعرف هذا النموذج باسم AdaBrowse+. أظهرت النتائج التجريبية الواسعة على أربع مجموعات بيانات كبيرة لـ CSLR، وهي PHOENIX14 وPHOENIX14-T وCSL-Daily وCSL، فعالية AdaBrowse وAdaBrowse+ من خلال تحقيق دقة مماثلة للأساليب المتطورة حديثًا مع زيادة في الأداء بنسبة 1.44 مرة وانخفاض في عدد العمليات الحسابية (FLOPs) بنسبة 2.12 مرة. وتوصلت المقارنات مع أنواع أخرى شائعة من الشبكات العصبية التلافيفية ثنائية الأبعاد (2D CNNs) والأساليب الفعالة التكيفية إلى تأكيد فعالية AdaBrowse. يُمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/hulianyuyy/AdaBrowse}.

AdaBrowse: متصفح فيديو تكيفي للإRecognition المستمر للغة الإشارة بكفاءة | أحدث الأوراق البحثية | HyperAI