Command Palette
Search for a command to run...
كيفية تصميم هندسة ثلاثية المراحل لاكتشاف المتحدث النشط السمعي البصري في البيئة الطبيعية
كيفية تصميم هندسة ثلاثية المراحل لاكتشاف المتحدث النشط السمعي البصري في البيئة الطبيعية
Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard
الملخص
الكشف الناجح عن المتحدث النشط يتطلب خطوة ثلاثية: (i) الترميز السمعي البصري لجميع المتحدثين في المقطع، (ii) نمذجة العلاقات بين المتحدث المرجعي والمتحدثين الخلفيين داخل كل إطار، و(iii) النمذجة الزمنية للمتحدث المرجعي. يلعب كل مرحلة من هذه الخطوات دورًا مهمًا في الأداء النهائي للهندسة المعمارية المنشأة. استنادًا إلى سلسلة من التجارب المنضبطة، يقدم هذا العمل عدة توجيهات عملية لكشف المتحدث النشط باستخدام البيانات السمعية والبصرية. وفي هذا الإطار، نقدم هندسة معمارية جديدة تُسمى ASDNet، والتي تحقق أحدث مستوى عالمي على مجموعة بيانات AVA-ActiveSpeaker بمتوسط دقة الاسترجاع (mAP) بنسبة 93.5%، مما يتفوق على ثاني أفضل طريقة بفارق كبير قدره 4.7%. رمزنا وأنموذجتنا المسبقة متاحة للعامة.