HyperAIHyperAI
منذ 2 أشهر

UniCon: شبكة السياق الموحدة لاكتشاف المتحدث النشط بثبات

Zhang, Yuanhang ; Liang, Susan ; Yang, Shuang ; Liu, Xiao ; Wu, Zhongqin ; Shan, Shiguang ; Chen, Xilin
UniCon: شبكة السياق الموحدة لاكتشاف المتحدث النشط بثبات
الملخص

نقدم إطارًا جديدًا فعالًا، وهو شبكة السياق الموحدة (UniCon)، للكشف عن المتحدث النشط (ASD) بشكل متين. تتعامل الطرق التقليدية للكشف عن المتحدث النشط عادةً مع كل مسار وجه مرشح تم قصّه مسبقًا بشكل منفصل ولا تأخذ في الاعتبار العلاقات بين المرشحين بشكل كافٍ. وهذا قد يحد من الأداء، خاصة في السيناريوهات الصعبة التي تحتوي على وجوه ذات دقة منخفضة أو عدد كبير من المرشحين وما إلى ذلك. حلنا هو إطار جديد ومُوحَّد يركز على نمذجة أنواع متعددة من المعلومات السياقية بشكل مشترك: السياق المكاني للإشارة إلى موقع وحجم وجه كل مرشح، والسياق العلائقي لتقاطع العلاقات البصرية بين المرشحين والمقارنة بين التشابكات الصوتية والبصرية مع بعضها البعض، والسياق الزمني لتجميع المعلومات طويلة الأمد وتخفيف الغموض المحلي. بناءً على هذه المعلومات، يقوم نموذجنا بتحسين جميع المرشحين في عملية موحدة لتحقيق الكشف عن المتحدث النشط بشكل متين وموثوق. أجريت دراسة تقليص شاملة على عدة مقاييس صعبة للكشف عن المتحدث النشط تحت إعدادات مختلفة. وبشكل خاص، تتفوق طريقتنا على أفضل ما تم تحقيقه حتى الآن بمقدار حوالي 15% من قيمة الوسط الحسابي للدقة (mAP) المطلقة في مجموعتين صعبتين: الأولى تحتوي على ثلاثة مرشحين متحدثين، والثانية تحتوي على وجوه أصغر من 64 بكسل. مجتمعةً، تحقق UniCon نسبة mAP تبلغ 92.0% في مجموعة التحقق من صحة AVA-ActiveSpeaker، وهي تتخطى نسبة 90% لأول مرة في هذا المجموعة البيانات الصعبة عند تقديم البحث. موقع المشروع: https://unicon-asd.github.io/.

UniCon: شبكة السياق الموحدة لاكتشاف المتحدث النشط بثبات | أحدث الأوراق البحثية | HyperAI