RTFS-Net: نموذج متكرر للتحليل الزمني-الترددي لفصل الكلام السمعي-البصري بكفاءة

تهدف طرق فصل الكلام السمعي البصري إلى دمج أنماط مختلفة لإنتاج كلام منفصل بجودة عالية، مما يعزز أداء المهام اللاحقة مثل التعرف على الكلام. تعمل معظم النماذج الحالية ذات المستوى الرائد (SOTA) في المجال الزمني. ومع ذلك، فإن نهجها البسيط جدًا لنمذجة الخصائص الصوتية غالبًا ما يتطلب نماذج أكبر وأكثر استهلاكًا للطاقة الحاسوبية لتحقيق أداء سOTA. في هذا البحث، نقدم طريقة جديدة لفصل الكلام السمعي البصري في المجال الزمني-الترددي: شبكة الفصل الزمني-الترددي المتكررة (RTFS-Net)، والتي تطبق خوارزمياتها على الأقنية الزمنية-الترددية المعقدة التي تنتجها تحويلة فورييه القصيرة الوقت. نقوم بنمذجة وتقاطع الأبعاد الزمنية والترددية للصوت بشكل مستقل باستخدام شبكة عصبية متكررة متعددة الطبقات لكل بعد. بالإضافة إلى ذلك، نقدم تقنية دمج متميزة تعتمد على الانتباه لدمج المعلومات السمعية والبصرية بكفاءة، ونهج جديد للفصل بالقناع يستفيد من الطبيعة الطيفية الذاتية للخصائص الصوتية لتحقيق فصل أكثر وضوحًا. تتفوق RTFS-Net على الطريقة SOTA السابقة في كل من سرعة الاستدلال وجودة الفصل بينما تقلل عدد المعلمات بنسبة 90٪ ومعدلات العمليات الحسابية (MACs) بنسبة 83٪. هذه هي أول طريقة فصل الكلام السمعي البصري في المجال الزمني-الترددي التي تتفوق على جميع المثيلات المعاصرة في المجال الزمني.