HyperAIHyperAI
منذ 15 أيام

IIANet: شبكة انتباه داخلي وخارجي بين الوسائط لفصل الكلام الصوتي البصري

Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
IIANet: شبكة انتباه داخلي وخارجي بين الوسائط لفصل الكلام الصوتي البصري
الملخص

أحرزت الأبحاث الحديثة تقدماً ملحوظاً في تصميم وحدات الدمج لفصل الكلام الصوتي البصري. ومع ذلك، تركز هذه الأبحاث بشكل كبير على دمج الوسائط في مقياس زمني واحد للخصائص الصوتية والبصرية، دون استخدام آليات الانتباه المُختارة، وهو ما يختلف بشكل حاد عن طريقة عمل الدماغ البشري. ولحل هذه المشكلة، نقترح نموذجاً جديداً يُسمى شبكة الانتباه الداخلي والخارجي (IIANet)، التي تعتمد على آلية الانتباه لتحقيق دمج فعّال للخصائص الصوتية والبصرية. يتكون IIANet من نوعين من كتل الانتباه: كتل الانتباه الداخلي (IntraA) وكتل الانتباه الخارجي (InterA)، حيث تُوزَّع كتل InterA في الأعلى والوسط والأسفل داخل الشبكة. مستوحاة بقوة من الطريقة التي يركّز بها الدماغ البشري على المحتوى ذي الصلة في مختلف المقاييس الزمنية، تُبقي هذه الكتل قدرتها على تعلُّم الخصائص المحددة لكل وسيلة، كما تتيح استخلاص معاني مختلفة من الخصائص الصوتية والبصرية. أظهرت التجارب الشاملة على ثلاث معايير قياسية لفصل الكلام الصوتي البصري (LRS2، LRS3، وVoxCeleb2 فعالية IIANet، حيث تفوقت على أحدث الطرق السابقة مع الحفاظ على زمن استجابة مماثل. وبشكل خاص، يمتلك النسخة السريعة من IIANet (IIANet-fast) فقط 7% من عدد العمليات الحسابية المطلوبة (MACs) التي يحتاجها CTCNet، ويُسْرِع بنسبة 40% على وحدات المعالجة المركزية (CPUs) مقارنة بـ CTCNet، مع تحقيق جودة أفضل في فصل الصوت، مما يُظهر القدرة الكبيرة لآلية الانتباه على دعم الدمج متعدد الوسائط بكفاءة وفعالية.

IIANet: شبكة انتباه داخلي وخارجي بين الوسائط لفصل الكلام الصوتي البصري | أحدث الأوراق البحثية | HyperAI