منذ 8 أشهر

الملخص

تهدف طرق فصل الكلام السمعي البصري إلى دمج أنماط مختلفة لإنتاج كلام منفصل بجودة عالية، مما يعزز أداء المهام اللاحقة مثل التعرف على الكلام. تعمل معظم النماذج الحالية ذات المستوى الرائد (SOTA) في المجال الزمني. ومع ذلك، فإن نهجها البسيط جدًا لنمذجة الخصائص الصوتية غالبًا ما يتطلب نماذج أكبر وأكثر استهلاكًا للطاقة الحاسوبية لتحقيق أداء سOTA. في هذا البحث، نقدم طريقة جديدة لفصل الكلام السمعي البصري في المجال الزمني-الترددي: شبكة الفصل الزمني-الترددي المتكررة (RTFS-Net)، والتي تطبق خوارزمياتها على الأقنية الزمنية-الترددية المعقدة التي تنتجها تحويلة فورييه القصيرة الوقت. نقوم بنمذجة وتقاطع الأبعاد الزمنية والترددية للصوت بشكل مستقل باستخدام شبكة عصبية متكررة متعددة الطبقات لكل بعد. بالإضافة إلى ذلك، نقدم تقنية دمج متميزة تعتمد على الانتباه لدمج المعلومات السمعية والبصرية بكفاءة، ونهج جديد للفصل بالقناع يستفيد من الطبيعة الطيفية الذاتية للخصائص الصوتية لتحقيق فصل أكثر وضوحًا. تتفوق RTFS-Net على الطريقة SOTA السابقة في كل من سرعة الاستدلال وجودة الفصل بينما تقلل عدد المعلمات بنسبة 90٪ ومعدلات العمليات الحسابية (MACs) بنسبة 83٪. هذه هي أول طريقة فصل الكلام السمعي البصري في المجال الزمني-الترددي التي تتفوق على جميع المثيلات المعاصرة في المجال الزمني.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RTFS-Net: نموذج متكرر للتحليل الزمني-الترددي لفصل الكلام السمعي-البصري بكفاءة

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RTFS-Net: نموذج متكرر للتحليل الزمني-الترددي لفصل الكلام السمعي-البصري بكفاءة

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RTFS-Net: نموذج متكرر للتحليل الزمني-الترددي لفصل الكلام السمعي-البصري بكفاءة

Samuel Pegg Kai Li Xiaolin Hu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters