HyperAIHyperAI
منذ 2 أشهر

المتحدثون النشطون في السياق

Alcazar, Juan Leon ; Heilbron, Fabian Caba ; Mai, Long ; Perazzi, Federico ; Lee, Joon-Young ; Arbelaez, Pablo ; Ghanem, Bernard
المتحدثون النشطون في السياق
الملخص

الطرق الحالية للكشف عن المتحدث النشط تركز على نمذجة المعلومات السمعية والبصرية قصيرة المدى من متحدث واحد. رغم أن هذه الاستراتيجية قد تكون كافية للتعامل مع سيناريوهات المتحدث الواحد، إلا أنها تحول دون الكشف الدقيق عن المتحدث عندما يكون الهدف هو تحديد أي من العديد من المتحدثين المرشحين هم الذين يتحدثون. يقدم هذا البحث تمثيلًا جديدًا يُعرف بـ "سياق المتحدث النشط" (Active Speaker Context)، وهو يهدف إلى نمذجة العلاقات بين عدة متحدثين على مدى فترات زمنية طويلة. صُمم سياق المتحدث النشط لدينا لتعلم العلاقات الثنائية والعلاقات الزمنية من مجموعة منظمة للملاحظات السمعية والبصرية. تظهر تجاربنا أن مجموعة الخصائص المنظمة تحسن بالفعل أداء الكشف عن المتحدث النشط. علاوة على ذلك، وجدنا أن سياق المتحدث النشط المقترح يتفوق على أفضل ما وصل إليه العلم في مجموعة بيانات AVA-ActiveSpeaker، حيث حقق نسبة mAP قدرها 87.1٪. نقدم دراسات تقليصية تؤكد أن هذا النتيجة هي نتيجة مباشرة لتحليلنا طويل المدى لمجموعة المتحدثين المتعددين.

المتحدثون النشطون في السياق | أحدث الأوراق البحثية | HyperAI