HyperAIHyperAI
منذ 15 أيام

شبكة التحويل الثنائي المسار: نمذجة مباشرة تأخذ بعين الاعتبار السياق لفصل الصوت أحادي القناة من البداية إلى النهاية

Jingjing Chen, Qirong Mao, Dong Liu
شبكة التحويل الثنائي المسار: نمذجة مباشرة تأخذ بعين الاعتبار السياق لفصل الصوت أحادي القناة من البداية إلى النهاية
الملخص

النماذج السائدة لفصل الكلام تعتمد على شبكات عصبية متكررة أو تلافيفية معقدة تُنَمذج تسلسلات الكلام بشكل غير مباشر بشرط وجود سياق، مثل نقل المعلومات عبر عدد كبير من الحالات الوسيطة في الشبكات العصبية المتكررة، ما يؤدي إلى أداء غير مثالي في فصل الكلام. في هذه الورقة، نقترح شبكة تحولية ذات مسارين (DPTNet) لفصل الكلام من البداية إلى النهاية، والتي تُدخل وعيًا مباشرًا بالسياق في نمذجة تسلسلات الكلام. من خلال إدخال تحول محسّن، يمكن للعناصر في تسلسلات الكلام التفاعل مباشرةً، مما يمكّن DPTNet من نمذجة تسلسلات الكلام بوعي مباشر بالسياق. يتعلم التحول المحسّن في نهجنا معلومات الترتيب في تسلسلات الكلام دون الحاجة إلى ترميزات موضعية، وذلك بدمج شبكة عصبية متكررة في التحول الأصلي. علاوةً على ذلك، تجعل البنية الثنائية المسارات من نموذجنا فعّالًا في نمذجة تسلسلات الكلام الطويلة جدًا. أظهرت تجارب واسعة على مجموعات بيانات معيارية أن نهجنا يتفوق على أحدث النماذج الحالية (بمعدل SDR يبلغ 20.6 ديسيبل على مجموعة بيانات WSj0-2mix العامة).

شبكة التحويل الثنائي المسار: نمذجة مباشرة تأخذ بعين الاعتبار السياق لفصل الصوت أحادي القناة من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI