تلعب التوافقية دورًا حاسمًا في الأنظمة القائمة على الشبكات العصبية العميقة مقارنةً بالأنظمة المُلهمة بيولوجيًا لفصل الكلام الأحادي الأذن

أدى التقدم الأخير في التعلم العميق إلى تحسينات جذرية في نماذج فصل الصوت. وعلى الرغم من نجاحها المتزايد وزيادة تطبيقاتها، لم تُبذل سوى جهود قليلة لتحليل المبادئ الأساسية التي تتعلمها هذه الشبكات لأداء الفصل. في هذه الدراسة، نحلل دور التوافقية في نموذجين حديثين قائمين على الشبكات العصبية العميقة (DNN) – Conv-TasNet وDPT-Net. نقيّم أدائهما عند خلطات من كلام طبيعي مقابل خلطات من كلام غير توافقي تم تعديلها طفيفًا، حيث تم إدخال اهتزازات ترددية طفيفة على التوافقيات. نجد أن الأداء يتأثر سلبًا بشكل كبير إذا كان أحد المصدرين يعاني حتى من اهتزاز توافقي طفيف، مثلاً، اهتزاز توافقي بنسبة 3% غير مدرك يُضعف أداء Conv-TasNet من 15.4 ديسيبل إلى 0.70 ديسيبل. كما أن تدريب النموذج على خلطات غير توافقيّة لا يُعالج هذه الحساسية، بل يؤدي إلى أداء أسوأ في خلطات الكلام الطبيعي، ما يجعل عدم التوافقيّة عاملًا مضادًا قويًا في نماذج DNN. علاوةً على ذلك، تُظهر التحليلات الإضافية أن خوارزميات DNN تختلف بشكل كبير عن الخوارزميات المُلهمة بيولوجيًا التي تعتمد بشكل رئيسي على معلومات التوقيت، وليس على التوافقيّة، لفصل الكلام.