HyperAIHyperAI
منذ 17 أيام

عين واحدة تكفيك: تجميعات خفيفة للتقدير البصري باستخدام مشغلات أحادية

Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty
عين واحدة تكفيك: تجميعات خفيفة للتقدير البصري باستخدام مشغلات أحادية
الملخص

ازدادت دقة تقدير النظر بشكل كبير في السنوات الأخيرة. ومع ذلك، غالبًا ما تفشل هذه النماذج في الاستفادة من خوارزميات وتقنيات الرؤية الحاسوبية (CV) المختلفة (مثل الشبكات الصغيرة ResNet وInception، ونماذج التجميع) التي أثبتت تحسين النتائج في مشكلات الرؤية الحاسوبية الأخرى. علاوةً على ذلك، تتطلب معظم نماذج تقدير النظر الحالية استخدام كلا العينين أو الوجه بالكامل، بينما قد لا تكون البيانات الواقعية دائمًا تحتوي على كلا العينين بجودة عالية. ولذلك، نقترح نموذجًا لتقدير النظر يعتمد على هندستي الشبكة ResNet وInception، ويُقدّر الاتجاه باستخدام صورة عين واحدة فقط. بالإضافة إلى ذلك، نقترح شبكة مُعدّلة مبنية على التجميع (ensemble calibration network) تستخدم التنبؤات من عدة هياكل فردية لتحقيق تنبؤات مخصصة لكل فرد. وباستخدام هياكل خفيفة الوزن، نحقق أداءً عاليًا على مجموعة بيانات GazeCapture مع عدد محدود جدًا من المعلمات في النموذج. عند استخدام كلا العينين كمدخلات، نحقق خطأً في التنبؤ قدره 1.591 سم في مجموعة الاختبار دون معايرة، و1.439 سم مع نموذج المعايرة المبني على التجميع. وبالاعتماد على عين واحدة فقط كمدخل، نحقق ما يزال خطأً متوسطًا في التنبؤ قدره 2.312 سم دون معايرة، و1.951 سم مع نموذج المعايرة المبني على التجميع. كما لاحظنا تقليلًا ملحوظًا في الأخطاء بالنسبة لصور العين اليمنى في مجموعة الاختبار، وهو ما قد يكون ذا أهمية كبيرة في تصميم أدوات مستقبلية تعتمد على تقدير النظر.