HyperAIHyperAI

Command Palette

Search for a command to run...

ViTGaze: تتبع النظرة مع خصائص التفاعل في محولات الرؤية

Yuehao Song Xinggang Wang Jingfeng Yao Wenyu Liu Jinglin Zhang Xiangmin Xu

الملخص

تتبع النظر يهدف إلى تفسير التفاعلات بين الإنسان والمشهد من خلال التنبؤ بنقطة التركيز البصرية للشخص. غالباً ما تتبنى الطرق السائدة إطاراً ثنائياً، حيث يتم استخراج المعلومات متعددة الوسائط في المرحلة الأولى للتنبؤ بهدف النظر. وبالتالي، تعتمد فعالية هذه الطرق بشكل كبير على دقة استخراج الوسائط السابقة. بينما تستخدم طرق أخرى نهجاً أحادي الوسيلة مع مفككات معقدة، مما يزيد العبء الحسابي للشبكة. مستوحاة من النجاح الملحوظ للمتحولات البصرية المدربة مسبقاً (ViTs)، نقدم إطاراً جديداً لتتبع النظر أحادي الوسيلة يُسمى ViTGaze. على عكس الطرق السابقة، ينشئ هذا الإطار نظاماً جديداً لتتبع النظر يستند بشكل أساسي إلى مشفّرات قوية (حيث تكون نسبة معلمات المفكك النسبي أقل من 1٪). رؤيتنا الرئيسية هي أن التفاعلات بين الرموز داخل انتباه الذات يمكن نقلها إلى التفاعلات بين الإنسان والمشهد. باستغلال هذه الفرضية، صاغنا إطاراً يتكون من مشفّر تفاعل رباعي الأبعاد ووحدة إرشاد فضائي ثنائية الأبعاد لاستخراج معلومات تفاعل الإنسان والمشهد من خرائط انتباه الذات. بالإضافة إلى ذلك، كشفت دراستنا أن المتحولات البصرية (ViT) التي تم تدريبها بطريقة ذاتية غير مشروفة لديها قدرة متزايدة على استخراج معلومات الارتباط. تم إجراء العديد من التجارب لبيان أداء الطريقة المقترحة. حققت طريقتنا أفضل الأداء (SOTA) بين جميع الطرق أحادية الوسيلة (تحسن بنسبة 3.4٪ في درجة المساحة تحت المنحنى (AUC)، وتحسن بنسبة 5.1٪ في الدقة المتوسطة (AP)) وأداءً شديد القرب مقابل الطرق متعددة الوسائط مع انخفاض بنسبة 59٪ في عدد المعلمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ViTGaze: تتبع النظرة مع خصائص التفاعل في محولات الرؤية | مستندات | HyperAI