TDFNet: نموذج فصل الكلام الصوتي البصري الفعّال مع تكامل من الأعلى إلى الأسفل

حصلت المعالجة الصوتية البصرية للكلام على اهتمام كبير في السنوات الأخيرة بفضل تطبيقاتها الواعدة في مجالات متنوعة مثل التعرف على الكلام، وتحديد الهوية الصوتية، وتحليل المشهد، والتكنولوجيات المساعدة. يُعد تصميم شبكة خفيفة الوزن لفصل الكلام الصوتي البصري أمرًا مهمًا في التطبيقات التي تتطلب تأخيرًا منخفضًا، ولكن الطرق الحالية غالبًا ما تتطلب تكاليف حسابية أعلى وعددًا أكبر من المعلمات لتحقيق أداء أفضل في الفصل. في هذه الورقة، نقدم نموذجًا لفصل الكلام الصوتي البصري يُسمى Top-Down-Fusion Net (TDFNet)، وهو نموذج من الطراز الرائد (SOTA) في مجال فصل الكلام الصوتي البصري، ويُبنى على بنية TDANet، وهو نموذج لفصل الكلام الصوتي فقط. تُعد TDANet الأساس المعماري للشبكات الصوتية والبصرية داخل TDFNet، مما يوفر نموذجًا فعّالًا يحتوي على عدد أقل من المعلمات. على مجموعة بيانات LRS2-2Mix، حقق TDFNet زيادة في الأداء تصل إلى 10٪ في جميع مقاييس الأداء مقارنة بالنموذج السابق من الطراز الرائد CTCNet. وبشكل ملحوظ، تم تحقيق هذه النتائج باستخدام عدد أقل من المعلمات، وبمجرد 28٪ فقط من عمليات الضرب والجمع (MACs) المطلوبة في CTCNet. وبصورة جوهرية، يقدّم منهجنا حلًا فعّالًا وفعالًا للغاية للتحديات المتعلقة بفصل الكلام في المجال الصوتي البصري، مما يُسهم بشكل كبير في الاستفادة المثلى من المعلومات البصرية.