Chitransformer: نحو رؤية ستيريو موثوقة من خلال المؤشرات

تواجه تقنيات التماثل الثلاثي الحالية تحديات ناتجة عن مساحة بحث محدودة، ومناطق محجوبة، وحجم كبير جدًا. في حين أن تقدير العمق من صورة واحدة يتجنب هذه التحديات، ويمكنه تحقيق نتائج مرضية باستخدام الميزات الأحادية (monocular cues) المستخرجة، فإن غياب العلاقة الثلاثية (stereoscopic relationship) يجعل التنبؤ الأحادي أقل موثوقية بذاته، خاصة في البيئات الديناميكية أو المزدحمة للغاية. ولمعالجة هذه المشكلات في كلا السيناريوهين، نقدم طريقة ذاتية التدريب لتقدير العمق الثنائي مستوحاة من البنية البصرية للعصب البصري (optic chiasm)، حيث تم تصميم نموذج مُحول بصري (Vision Transformer) يحتوي على طبقات انتباه متقاطع مُتحكم به (GPCA) لتمكين استرجاع الأنماط الحساسة للسمات بين الرؤى، مع الحفاظ على المعلومات السياقية الواسعة المجمعة عبر عمليات الانتباه الذاتي. وبعد ذلك، يتم تصحيح الميزات الأحادية من رؤية واحدة بشكل شرطي بواسطة طبقة خلط (blending layer) باستخدام أزواج الأنماط المسترجعة. يشبه هذا التصميم المتقاطع البنية العصبية للعصب البصري في النظام البصري البشري، مما يبرر تسميته بـ "ChiTransformer". تُظهر تجاربنا أن هذا الهيكل يحقق تحسينات كبيرة مقارنة بالأساليب المتطورة ذاتية التدريب للتماثل الثلاثي، بنسبة تصل إلى 11٪، ويمكن استخدامه على الصور المستقيمة (rectilinear) والصور غير المستقيمة (مثل الصور ذات العدسة البيضاوية - fisheye).