Command Palette
Search for a command to run...
نموذج خفيف الوزن للكشف عن المتحدث النشط
نموذج خفيف الوزن للكشف عن المتحدث النشط
Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin
الملخص
اكتشاف المتحدث النشط هو مهمة صعبة في فهم السيناريوهات الصوتية والبصرية، وتهدف إلى تحديد من يتحدث في سيناريوهات تتضمن متحدثًا واحدًا أو أكثر. حظيت هذه المهمة باهتمام واسع نظرًا لأهميتها في التطبيقات مثل تقسيم المتحدثين، تتبع المتحدث، وتحرير الفيديو تلقائيًا. تسعى الدراسات الحالية إلى تحسين الأداء من خلال إدخال معلومات مرشحة متعددة وتصميم نماذج معقدة. رغم أن هذه الأساليب حققت أداءً متميزًا، فإن استهلاكها العالي للذاكرة والقدرة الحسابية يجعل تطبيقها صعبًا في السيناريوهات ذات الموارد المحدودة. لذلك، قمنا ببناء هندسة خفيفة لاكتشاف المتحدث النشط عن طريق تقليل المرشحين المدخلين، وتقسيم التحويلات ثنائية الأبعاد وثلاثية الأبعاد لاستخراج الخصائص الصوتية والبصرية، واستخدام وحدة التكرار المشروطة (GRU) ذات التعقيد الحسابي المنخفض لنمذجة البيانات عبر الوسائط المتعددة. أظهرت نتائج التجارب على مجموعة بيانات AVA-ActiveSpeaker أن إطارنا يحقق أداءً تنافسيًا لمتوسط الدقة (mAP) (94.1٪ مقابل 94.2٪)، بينما تكون تكلفة الموارد أقل بكثير من الطريقة الأكثر تقدمًا، خاصة فيما يتعلق بمعلمات النموذج (1.0 مليون مقابل 22.5 مليون، حوالي 23 مرة) ومعدل العمليات العائمة (FLOPs) (0.6 مليار مقابل 2.6 مليار، حوالي 4 مرات). بالإضافة إلى ذلك، أثبت إطارنا أيضًا كفاءته على مجموعة بيانات Columbia وأظهر قوة مقاومة جيدة. يمكن الحصول على الكود وأوزان النموذج من الرابط التالي: https://github.com/Junhua-Liao/Light-ASD.