HyperAIHyperAI

Command Palette

Search for a command to run...

TDFNet: نموذج فصل الكلام الصوتي البصري الفعّال مع تكامل من الأعلى إلى الأسفل

Samuel Pegg Kai Li Xiaolin Hu

الملخص

حصلت المعالجة الصوتية البصرية للكلام على اهتمام كبير في السنوات الأخيرة بفضل تطبيقاتها الواعدة في مجالات متنوعة مثل التعرف على الكلام، وتحديد الهوية الصوتية، وتحليل المشهد، والتكنولوجيات المساعدة. يُعد تصميم شبكة خفيفة الوزن لفصل الكلام الصوتي البصري أمرًا مهمًا في التطبيقات التي تتطلب تأخيرًا منخفضًا، ولكن الطرق الحالية غالبًا ما تتطلب تكاليف حسابية أعلى وعددًا أكبر من المعلمات لتحقيق أداء أفضل في الفصل. في هذه الورقة، نقدم نموذجًا لفصل الكلام الصوتي البصري يُسمى Top-Down-Fusion Net (TDFNet)، وهو نموذج من الطراز الرائد (SOTA) في مجال فصل الكلام الصوتي البصري، ويُبنى على بنية TDANet، وهو نموذج لفصل الكلام الصوتي فقط. تُعد TDANet الأساس المعماري للشبكات الصوتية والبصرية داخل TDFNet، مما يوفر نموذجًا فعّالًا يحتوي على عدد أقل من المعلمات. على مجموعة بيانات LRS2-2Mix، حقق TDFNet زيادة في الأداء تصل إلى 10٪ في جميع مقاييس الأداء مقارنة بالنموذج السابق من الطراز الرائد CTCNet. وبشكل ملحوظ، تم تحقيق هذه النتائج باستخدام عدد أقل من المعلمات، وبمجرد 28٪ فقط من عمليات الضرب والجمع (MACs) المطلوبة في CTCNet. وبصورة جوهرية، يقدّم منهجنا حلًا فعّالًا وفعالًا للغاية للتحديات المتعلقة بفصل الكلام في المجال الصوتي البصري، مما يُسهم بشكل كبير في الاستفادة المثلى من المعلومات البصرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp