HyperAIHyperAI

Command Palette

Search for a command to run...

MDS-ViTNet: تحسين توقع التركيز البصري باستخدام مُرَاقِبَة العين مع نموذج التحويل البصري

Polezhaev Ignat Goncharenko Igor Iurina Natalya

الملخص

في هذه الورقة، نقدم منهجية جديدة نسميها MDS-ViTNet (الانتباه المتعدد عبر الشبكة العصبية للتحويل البصري) لتحسين توقع الانتباه البصري أو تتبع حركة العين. تمتلك هذه الطريقة إمكانات كبيرة في مجالات متنوعة، بما في ذلك التسويق، الطب، الروبوتات، والتجزئة. نقترح بنية شبكة تعتمد على التحويل البصري (Vision Transformer)، متجاوزةً الهيكل التقليدي المستند إلى ImageNet. ويستخدم الإطار بنية مشفر-فكك، حيث يستخدم المشفر (Encoder) تحويلة Swin لاستخلاص الميزات الأكثر أهمية بكفاءة. ويتم هذا التحويل باستخدام تقنية التعلم الناقل (Transfer Learning)، حيث يتم تحويل الطبقات من التحويل البصري بواسطة مشفر التحويل (Encoder Transformer) ودمجها بسلاسة في مشفر شبكة عصبية تلافيفية (CNN Decoder). تضمن هذه الطريقة الحد الأدنى من فقدان المعلومات من الصورة الأصلية. أما المُفكك (Decoder)، فيعتمد تقنية التفكيك المتعددة، باستخدام مُفككين مزدوجين لإنتاج خريطة انتباهين مختلفين، ثم يتم دمج هاتين الخريطة في مخرج واحد موحد من خلال نموذج CNN إضافي. حقق نموذجنا المدرب MDS-ViTNet نتائج رائدة على عدة معايير معيارية. ونحن ملتزمون بتعزيز التعاون المستقبلي، ونخطط لجعل كودنا، ونماذجنا، وبياناتنا متاحة للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MDS-ViTNet: تحسين توقع التركيز البصري باستخدام مُرَاقِبَة العين مع نموذج التحويل البصري | مستندات | HyperAI