HyperAIHyperAI
منذ 2 أشهر

ViTGaze: تتبع النظرة مع خصائص التفاعل في محولات الرؤية

Song, Yuehao ; Wang, Xinggang ; Yao, Jingfeng ; Liu, Wenyu ; Zhang, Jinglin ; Xu, Xiangmin
ViTGaze: تتبع النظرة مع خصائص التفاعل في محولات الرؤية
الملخص

تتبع النظر يهدف إلى تفسير التفاعلات بين الإنسان والمشهد من خلال التنبؤ بنقطة التركيز البصرية للشخص. غالباً ما تتبنى الطرق السائدة إطاراً ثنائياً، حيث يتم استخراج المعلومات متعددة الوسائط في المرحلة الأولى للتنبؤ بهدف النظر. وبالتالي، تعتمد فعالية هذه الطرق بشكل كبير على دقة استخراج الوسائط السابقة. بينما تستخدم طرق أخرى نهجاً أحادي الوسيلة مع مفككات معقدة، مما يزيد العبء الحسابي للشبكة. مستوحاة من النجاح الملحوظ للمتحولات البصرية المدربة مسبقاً (ViTs)، نقدم إطاراً جديداً لتتبع النظر أحادي الوسيلة يُسمى ViTGaze. على عكس الطرق السابقة، ينشئ هذا الإطار نظاماً جديداً لتتبع النظر يستند بشكل أساسي إلى مشفّرات قوية (حيث تكون نسبة معلمات المفكك النسبي أقل من 1٪). رؤيتنا الرئيسية هي أن التفاعلات بين الرموز داخل انتباه الذات يمكن نقلها إلى التفاعلات بين الإنسان والمشهد. باستغلال هذه الفرضية، صاغنا إطاراً يتكون من مشفّر تفاعل رباعي الأبعاد ووحدة إرشاد فضائي ثنائية الأبعاد لاستخراج معلومات تفاعل الإنسان والمشهد من خرائط انتباه الذات. بالإضافة إلى ذلك، كشفت دراستنا أن المتحولات البصرية (ViT) التي تم تدريبها بطريقة ذاتية غير مشروفة لديها قدرة متزايدة على استخراج معلومات الارتباط. تم إجراء العديد من التجارب لبيان أداء الطريقة المقترحة. حققت طريقتنا أفضل الأداء (SOTA) بين جميع الطرق أحادية الوسيلة (تحسن بنسبة 3.4٪ في درجة المساحة تحت المنحنى (AUC)، وتحسن بنسبة 5.1٪ في الدقة المتوسطة (AP)) وأداءً شديد القرب مقابل الطرق متعددة الوسائط مع انخفاض بنسبة 59٪ في عدد المعلمات.