HyperAIHyperAI

Command Palette

Search for a command to run...

RTFS-Net: نموذج متكرر للتحليل الزمني-الترددي لفصل الكلام السمعي-البصري بكفاءة

Samuel Pegg Kai Li Xiaolin Hu

الملخص

تهدف طرق فصل الكلام السمعي البصري إلى دمج أنماط مختلفة لإنتاج كلام منفصل بجودة عالية، مما يعزز أداء المهام اللاحقة مثل التعرف على الكلام. تعمل معظم النماذج الحالية ذات المستوى الرائد (SOTA) في المجال الزمني. ومع ذلك، فإن نهجها البسيط جدًا لنمذجة الخصائص الصوتية غالبًا ما يتطلب نماذج أكبر وأكثر استهلاكًا للطاقة الحاسوبية لتحقيق أداء سOTA. في هذا البحث، نقدم طريقة جديدة لفصل الكلام السمعي البصري في المجال الزمني-الترددي: شبكة الفصل الزمني-الترددي المتكررة (RTFS-Net)، والتي تطبق خوارزمياتها على الأقنية الزمنية-الترددية المعقدة التي تنتجها تحويلة فورييه القصيرة الوقت. نقوم بنمذجة وتقاطع الأبعاد الزمنية والترددية للصوت بشكل مستقل باستخدام شبكة عصبية متكررة متعددة الطبقات لكل بعد. بالإضافة إلى ذلك، نقدم تقنية دمج متميزة تعتمد على الانتباه لدمج المعلومات السمعية والبصرية بكفاءة، ونهج جديد للفصل بالقناع يستفيد من الطبيعة الطيفية الذاتية للخصائص الصوتية لتحقيق فصل أكثر وضوحًا. تتفوق RTFS-Net على الطريقة SOTA السابقة في كل من سرعة الاستدلال وجودة الفصل بينما تقلل عدد المعلمات بنسبة 90٪ ومعدلات العمليات الحسابية (MACs) بنسبة 83٪. هذه هي أول طريقة فصل الكلام السمعي البصري في المجال الزمني-الترددي التي تتفوق على جميع المثيلات المعاصرة في المجال الزمني.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp