Audio Visual Active Speaker Detection
التقنية المرئية والصوتية لاكتشاف المتحدث النشط هي تكنولوجيا تم تطويرها على أساس الرؤية الحاسوبية، وتهدف إلى تحليل المعلومات الصوتية والبصرية في الفيديوهات لتحديد وقت الكلام لكل شخص مرئي. تدمج هذه التقنية طرق معالجة البيانات متعددة الأوضاع، مما يمكّنها من تحديد المتحدثين بدقة وتحسين أداء أنظمة التفاعل بين الإنسان والحاسوب. وهي تُستخدم على نطاق واسع في مجالات مثل تسجيل اجتماعات، المراقبة الذكية، وتحليل محتوى الفيديو.