TasNet: شبكة فصل الصوت في المجال الزمني لفصل الكلام في الوقت الحقيقي من قناة واحدة

معالجة الكلام القوية في بيئات متعددة المتحدثين تتطلب فصل الكلام بشكل فعال. لقد أحرزت الأنظمة الحديثة المستندة إلى التعلم العميق تقدماً كبيراً نحو حل هذه المشكلة، ومع ذلك لا تزال تمثل تحدياً خاصة في التطبيقات ذات الوقت الفعلي والتأخير القصير. تحاول معظم الطرق بناء قناع لكل مصدر في التمثيل الزمني-الترددي للإشارة المختلطة، وهو تمثيل قد لا يكون مثالياً لفصل الكلام. بالإضافة إلى ذلك، فإن تحليل الزمن-التردد يؤدي إلى مشكلات جوهرية مثل انفصال الطور/الحجم وطول النافذة الزمنية الذي يتعين تحقيقه للحصول على دقة ترددية كافية. نقترح شبكة فصل الصوت في المجال الزمني (TasNet) للتغلب على هذه القيود. نقوم بنمذجة الإشارة مباشرة في المجال الزمني باستخدام إطار مُشفِّر-مُفكِّك التشفير ونقوم بفصل المصادر على مخرجات المُشفِّر غير السالبة. هذا الأسلوب يزيل خطوة تحليل التردد ويقلل من مشكلة الفصل إلى تقدير قناعات المصادر على مخرجات المُشفِّر التي يتم بعد ذلك تركيبها بواسطة المُفكِّك. نظامنا يتفوق على خوارزميات فصل الكلام الحالية الأكثر تقدماً سواء كانت سببية أو غير سببية، ويقلل من تكلفة الحساب لفصل الكلام، ويخفض بشكل كبير الحد الأدنى للتأخير المطلوب للمخرجات. هذا يجعل شبكة TasNet مناسبة للتطبيقات التي يُفضل فيها التنفيذ ذو الطاقة المنخفضة والوقت الفعلي مثل الأجهزة القابلة للارتداء وأجهزة الاتصالات الهاتفية.