المتحدثون النشطون في السياق

الطرق الحالية للكشف عن المتحدث النشط تركز على نمذجة المعلومات السمعية والبصرية قصيرة المدى من متحدث واحد. رغم أن هذه الاستراتيجية قد تكون كافية للتعامل مع سيناريوهات المتحدث الواحد، إلا أنها تحول دون الكشف الدقيق عن المتحدث عندما يكون الهدف هو تحديد أي من العديد من المتحدثين المرشحين هم الذين يتحدثون. يقدم هذا البحث تمثيلًا جديدًا يُعرف بـ "سياق المتحدث النشط" (Active Speaker Context)، وهو يهدف إلى نمذجة العلاقات بين عدة متحدثين على مدى فترات زمنية طويلة. صُمم سياق المتحدث النشط لدينا لتعلم العلاقات الثنائية والعلاقات الزمنية من مجموعة منظمة للملاحظات السمعية والبصرية. تظهر تجاربنا أن مجموعة الخصائص المنظمة تحسن بالفعل أداء الكشف عن المتحدث النشط. علاوة على ذلك، وجدنا أن سياق المتحدث النشط المقترح يتفوق على أفضل ما وصل إليه العلم في مجموعة بيانات AVA-ActiveSpeaker، حيث حقق نسبة mAP قدرها 87.1٪. نقدم دراسات تقليصية تؤكد أن هذا النتيجة هي نتيجة مباشرة لتحليلنا طويل المدى لمجموعة المتحدثين المتعددين.