HyperAIHyperAI

Command Palette

Search for a command to run...

Chitransformer: نحو رؤية ستيريو موثوقة من خلال المؤشرات

Shihao Ji Qing Su

الملخص

تواجه تقنيات التماثل الثلاثي الحالية تحديات ناتجة عن مساحة بحث محدودة، ومناطق محجوبة، وحجم كبير جدًا. في حين أن تقدير العمق من صورة واحدة يتجنب هذه التحديات، ويمكنه تحقيق نتائج مرضية باستخدام الميزات الأحادية (monocular cues) المستخرجة، فإن غياب العلاقة الثلاثية (stereoscopic relationship) يجعل التنبؤ الأحادي أقل موثوقية بذاته، خاصة في البيئات الديناميكية أو المزدحمة للغاية. ولمعالجة هذه المشكلات في كلا السيناريوهين، نقدم طريقة ذاتية التدريب لتقدير العمق الثنائي مستوحاة من البنية البصرية للعصب البصري (optic chiasm)، حيث تم تصميم نموذج مُحول بصري (Vision Transformer) يحتوي على طبقات انتباه متقاطع مُتحكم به (GPCA) لتمكين استرجاع الأنماط الحساسة للسمات بين الرؤى، مع الحفاظ على المعلومات السياقية الواسعة المجمعة عبر عمليات الانتباه الذاتي. وبعد ذلك، يتم تصحيح الميزات الأحادية من رؤية واحدة بشكل شرطي بواسطة طبقة خلط (blending layer) باستخدام أزواج الأنماط المسترجعة. يشبه هذا التصميم المتقاطع البنية العصبية للعصب البصري في النظام البصري البشري، مما يبرر تسميته بـ "ChiTransformer". تُظهر تجاربنا أن هذا الهيكل يحقق تحسينات كبيرة مقارنة بالأساليب المتطورة ذاتية التدريب للتماثل الثلاثي، بنسبة تصل إلى 11٪، ويمكن استخدامه على الصور المستقيمة (rectilinear) والصور غير المستقيمة (مثل الصور ذات العدسة البيضاوية - fisheye).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Chitransformer: نحو رؤية ستيريو موثوقة من خلال المؤشرات | مستندات | HyperAI