HyperAIHyperAI
منذ 17 أيام

MDS-ViTNet: تحسين توقع التركيز البصري باستخدام مُرَاقِبَة العين مع نموذج التحويل البصري

Polezhaev Ignat, Goncharenko Igor, Iurina Natalya
MDS-ViTNet: تحسين توقع التركيز البصري باستخدام مُرَاقِبَة العين مع نموذج التحويل البصري
الملخص

في هذه الورقة، نقدم منهجية جديدة نسميها MDS-ViTNet (الانتباه المتعدد عبر الشبكة العصبية للتحويل البصري) لتحسين توقع الانتباه البصري أو تتبع حركة العين. تمتلك هذه الطريقة إمكانات كبيرة في مجالات متنوعة، بما في ذلك التسويق، الطب، الروبوتات، والتجزئة. نقترح بنية شبكة تعتمد على التحويل البصري (Vision Transformer)، متجاوزةً الهيكل التقليدي المستند إلى ImageNet. ويستخدم الإطار بنية مشفر-فكك، حيث يستخدم المشفر (Encoder) تحويلة Swin لاستخلاص الميزات الأكثر أهمية بكفاءة. ويتم هذا التحويل باستخدام تقنية التعلم الناقل (Transfer Learning)، حيث يتم تحويل الطبقات من التحويل البصري بواسطة مشفر التحويل (Encoder Transformer) ودمجها بسلاسة في مشفر شبكة عصبية تلافيفية (CNN Decoder). تضمن هذه الطريقة الحد الأدنى من فقدان المعلومات من الصورة الأصلية. أما المُفكك (Decoder)، فيعتمد تقنية التفكيك المتعددة، باستخدام مُفككين مزدوجين لإنتاج خريطة انتباهين مختلفين، ثم يتم دمج هاتين الخريطة في مخرج واحد موحد من خلال نموذج CNN إضافي. حقق نموذجنا المدرب MDS-ViTNet نتائج رائدة على عدة معايير معيارية. ونحن ملتزمون بتعزيز التعاون المستقبلي، ونخطط لجعل كودنا، ونماذجنا، وبياناتنا متاحة للجمهور.