HyperAIHyperAI

Command Palette

Search for a command to run...

IIANet: شبكة انتباه داخلي وخارجي بين الوسائط لفصل الكلام الصوتي البصري

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

الملخص

أحرزت الأبحاث الحديثة تقدماً ملحوظاً في تصميم وحدات الدمج لفصل الكلام الصوتي البصري. ومع ذلك، تركز هذه الأبحاث بشكل كبير على دمج الوسائط في مقياس زمني واحد للخصائص الصوتية والبصرية، دون استخدام آليات الانتباه المُختارة، وهو ما يختلف بشكل حاد عن طريقة عمل الدماغ البشري. ولحل هذه المشكلة، نقترح نموذجاً جديداً يُسمى شبكة الانتباه الداخلي والخارجي (IIANet)، التي تعتمد على آلية الانتباه لتحقيق دمج فعّال للخصائص الصوتية والبصرية. يتكون IIANet من نوعين من كتل الانتباه: كتل الانتباه الداخلي (IntraA) وكتل الانتباه الخارجي (InterA)، حيث تُوزَّع كتل InterA في الأعلى والوسط والأسفل داخل الشبكة. مستوحاة بقوة من الطريقة التي يركّز بها الدماغ البشري على المحتوى ذي الصلة في مختلف المقاييس الزمنية، تُبقي هذه الكتل قدرتها على تعلُّم الخصائص المحددة لكل وسيلة، كما تتيح استخلاص معاني مختلفة من الخصائص الصوتية والبصرية. أظهرت التجارب الشاملة على ثلاث معايير قياسية لفصل الكلام الصوتي البصري (LRS2، LRS3، وVoxCeleb2 فعالية IIANet، حيث تفوقت على أحدث الطرق السابقة مع الحفاظ على زمن استجابة مماثل. وبشكل خاص، يمتلك النسخة السريعة من IIANet (IIANet-fast) فقط 7% من عدد العمليات الحسابية المطلوبة (MACs) التي يحتاجها CTCNet، ويُسْرِع بنسبة 40% على وحدات المعالجة المركزية (CPUs) مقارنة بـ CTCNet، مع تحقيق جودة أفضل في فصل الصوت، مما يُظهر القدرة الكبيرة لآلية الانتباه على دعم الدمج متعدد الوسائط بكفاءة وفعالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp