HyperAIHyperAI
منذ 10 أيام

الاعتراف بالصوت متعدد الوسائط التمييزي

Bo Xu, Cheng Lu, Yandong Guo, Jacob Wang
الاعتراف بالصوت متعدد الوسائط التمييزي
الملخص

تُستخدم الرؤية غالبًا كوسيلة مكملة للتعرف على الكلام الصوتي (ASR)، خاصة في البيئات الصاخبة التي تنخفض فيها أداء الوسيلة الصوتية المنفردة بشكل كبير. وبعد دمج الوسيلة البصرية، يتطور التعرف على الكلام من نظام صوتي فردي إلى نظام متعدد الوسائط للتعرف على الكلام (MSR). في هذه الورقة، نقترح نموذجًا ثنائي المراحل للتعرف على الكلام. في المرحلة الأولى، يتم فصل الصوت المستهدف عن الضوضاء الخلفية بمساعدة المعلومات البصرية المقابلة لحركة الشفاه، مما يجعل النموذج "يستمع" بوضوح. وفي المرحلة الثانية، يُدمج التعرف الصوتي مع الوسيلة البصرية مرة أخرى عبر شبكة فرعية لـ MSR، لتحسين فهم الكلام ورفع معدل التعرف بشكل أكبر. من بين المساهمات الأساسية الأخرى: نقدّم واجهة بصرية قائمة على التقطيع التكاملي ثلاثي الأبعاد الافتراضي (P3D) لاستخلاص ميزات أكثر تمييزًا؛ ونُحدث كتلة التقطيع الزمني من نموذج 1D ResNet إلى شبكة التقطيع الزمني (TCN)، التي تكون أكثر ملاءمة للمهام الزمنية؛ كما نبني الشبكة الفرعية لـ MSR على أساس وحدة التكرار المُدارَة المُشَغّلة بالانتباه البسيط (EleAtt-GRU)، التي أثبتت كفاءة أعلى من نموذج Transformer في التسلسلات الطويلة. أجرينا تجارب واسعة على مجموعتي بيانات LRS3-TED وLRW. وقد حقق نموذجنا ثنائي المراحل (التعرف على الكلام متعدد الوسائط المعزز بالصوت، AE-MSR) أداءً متقدمًا بشكل ملحوظ في جميع التجارب، مما يُظهر ضرورة وفعالية نموذج AE-MSR.