HyperAIHyperAI

Command Palette

Search for a command to run...

كيفية تصميم هندسة ثلاثية المراحل لاكتشاف المتحدث النشط السمعي البصري في البيئة الطبيعية

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

الملخص

الكشف الناجح عن المتحدث النشط يتطلب خطوة ثلاثية: (i) الترميز السمعي البصري لجميع المتحدثين في المقطع، (ii) نمذجة العلاقات بين المتحدث المرجعي والمتحدثين الخلفيين داخل كل إطار، و(iii) النمذجة الزمنية للمتحدث المرجعي. يلعب كل مرحلة من هذه الخطوات دورًا مهمًا في الأداء النهائي للهندسة المعمارية المنشأة. استنادًا إلى سلسلة من التجارب المنضبطة، يقدم هذا العمل عدة توجيهات عملية لكشف المتحدث النشط باستخدام البيانات السمعية والبصرية. وفي هذا الإطار، نقدم هندسة معمارية جديدة تُسمى ASDNet، والتي تحقق أحدث مستوى عالمي على مجموعة بيانات AVA-ActiveSpeaker بمتوسط دقة الاسترجاع (mAP) بنسبة 93.5%، مما يتفوق على ثاني أفضل طريقة بفارق كبير قدره 4.7%. رمزنا وأنموذجتنا المسبقة متاحة للعامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp