HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة التحويل الثنائي المسار: نمذجة مباشرة تأخذ بعين الاعتبار السياق لفصل الصوت أحادي القناة من البداية إلى النهاية

Jingjing Chen Qirong Mao Dong Liu

الملخص

النماذج السائدة لفصل الكلام تعتمد على شبكات عصبية متكررة أو تلافيفية معقدة تُنَمذج تسلسلات الكلام بشكل غير مباشر بشرط وجود سياق، مثل نقل المعلومات عبر عدد كبير من الحالات الوسيطة في الشبكات العصبية المتكررة، ما يؤدي إلى أداء غير مثالي في فصل الكلام. في هذه الورقة، نقترح شبكة تحولية ذات مسارين (DPTNet) لفصل الكلام من البداية إلى النهاية، والتي تُدخل وعيًا مباشرًا بالسياق في نمذجة تسلسلات الكلام. من خلال إدخال تحول محسّن، يمكن للعناصر في تسلسلات الكلام التفاعل مباشرةً، مما يمكّن DPTNet من نمذجة تسلسلات الكلام بوعي مباشر بالسياق. يتعلم التحول المحسّن في نهجنا معلومات الترتيب في تسلسلات الكلام دون الحاجة إلى ترميزات موضعية، وذلك بدمج شبكة عصبية متكررة في التحول الأصلي. علاوةً على ذلك، تجعل البنية الثنائية المسارات من نموذجنا فعّالًا في نمذجة تسلسلات الكلام الطويلة جدًا. أظهرت تجارب واسعة على مجموعات بيانات معيارية أن نهجنا يتفوق على أحدث النماذج الحالية (بمعدل SDR يبلغ 20.6 ديسيبل على مجموعة بيانات WSj0-2mix العامة).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة التحويل الثنائي المسار: نمذجة مباشرة تأخذ بعين الاعتبار السياق لفصل الصوت أحادي القناة من البداية إلى النهاية | مستندات | HyperAI