HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج خفيف الوزن للكشف عن المتحدث النشط

Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin

الملخص

اكتشاف المتحدث النشط هو مهمة صعبة في فهم السيناريوهات الصوتية والبصرية، وتهدف إلى تحديد من يتحدث في سيناريوهات تتضمن متحدثًا واحدًا أو أكثر. حظيت هذه المهمة باهتمام واسع نظرًا لأهميتها في التطبيقات مثل تقسيم المتحدثين، تتبع المتحدث، وتحرير الفيديو تلقائيًا. تسعى الدراسات الحالية إلى تحسين الأداء من خلال إدخال معلومات مرشحة متعددة وتصميم نماذج معقدة. رغم أن هذه الأساليب حققت أداءً متميزًا، فإن استهلاكها العالي للذاكرة والقدرة الحسابية يجعل تطبيقها صعبًا في السيناريوهات ذات الموارد المحدودة. لذلك، قمنا ببناء هندسة خفيفة لاكتشاف المتحدث النشط عن طريق تقليل المرشحين المدخلين، وتقسيم التحويلات ثنائية الأبعاد وثلاثية الأبعاد لاستخراج الخصائص الصوتية والبصرية، واستخدام وحدة التكرار المشروطة (GRU) ذات التعقيد الحسابي المنخفض لنمذجة البيانات عبر الوسائط المتعددة. أظهرت نتائج التجارب على مجموعة بيانات AVA-ActiveSpeaker أن إطارنا يحقق أداءً تنافسيًا لمتوسط الدقة (mAP) (94.1٪ مقابل 94.2٪)، بينما تكون تكلفة الموارد أقل بكثير من الطريقة الأكثر تقدمًا، خاصة فيما يتعلق بمعلمات النموذج (1.0 مليون مقابل 22.5 مليون، حوالي 23 مرة) ومعدل العمليات العائمة (FLOPs) (0.6 مليار مقابل 2.6 مليار، حوالي 4 مرات). بالإضافة إلى ذلك، أثبت إطارنا أيضًا كفاءته على مجموعة بيانات Columbia وأظهر قوة مقاومة جيدة. يمكن الحصول على الكود وأوزان النموذج من الرابط التالي: https://github.com/Junhua-Liao/Light-ASD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp