HyperAIHyperAI
منذ 2 أشهر

تعلم ما و أين: فصل تتبع الموقع والهوية دون إشراف

Manuel Traub; Sebastian Otte; Tobias Menge; Matthias Karlbauer; Jannik Thümmel; Martin V. Butz
تعلم ما و أين: فصل تتبع الموقع والهوية دون إشراف
الملخص

يمكن لدماغنا تقسيم تدفقات البيانات البصرية إلى خلفية وأجسام بارزة بشكل شبه تلقائي. بالإضافة إلى ذلك، يمكنه التنبؤ بحركة الأجسام وتفاعلاتهم، وهي قدرات أساسية للتخطيط المفاهيمي والاستدلال. كشفت مجموعات البيانات الحديثة في الاستدلال على الأجسام، مثل CATER، عن نقص جوهري في أنظمة الذكاء الاصطناعي القائمة على الرؤية، خاصة عند التعامل مع تمثيلات الأجسام الصريحة، ودوام الأشياء (object permanence)، واستدلال الأجسام. هنا نقدم نظام تتبع ذاتي للموقع والهوية (Loci) والذي يتفوق في تحدي تتبع CATER. مستوحى من المسارات الظهرية والبطنية في الدماغ، يعالج Loci مشكلة الربط من خلال معالجة ترميزات منفصلة لكل فتحة للـ "ماذا" (what) والـ "أين" (where). تشجع معالجة Loci المشابهة للكود التنبؤي على الحد النشط من الأخطاء بحيث تميل الفتحات الفردية إلى ترميز الأجسام الفردية. يتم معالجة التفاعلات بين الأجسام وديناميكيتها في الفضاء الكامن المنفصل. يسرع الجمع العكسي المبتور عبر الزمن بالاشتراك مع تراكم الأهلية للأمام بشكل كبير عملية التعلم ويعزز كفاءة الذاكرة. بالإضافة إلى أداءه المتفوق في المقاييس الحالية، يقوم Loci بفصل الأجسام بشكل فعال من مسارات الفيديو وتقسيمها إلى مكونات الموقع والشكل العام (Gestalt). نعتقد أن هذا التقسيم يقدم تمثيلاً سيُسهل التخطيط والاستدلال على المستويات المفاهيمية.

تعلم ما و أين: فصل تتبع الموقع والهوية دون إشراف | أحدث الأوراق البحثية | HyperAI