HyperAIHyperAI

Command Palette

Search for a command to run...

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

الملخص

على الرغم من الأداء المتميز في المهام الهيكلية العليا، لم تُحقق أساليب التدريب الذاتي المسبق بعد النتائج الكاملة في المهام البصرية الهندسية الكثيفة مثل مطابقة الأزواج الثنائية (stereo matching) أو التدفق الضوئي (optical flow). يُعد تطبيق مفاهيم التدريب الذاتي المسبق، مثل تمييز المثيلات أو نمذجة الصور المُغطاة (masked image modeling)، على المهام الهندسية مجالًا بحثيًا نشطًا. في هذه الدراسة، نبني على الإطار الحديث لإكمال الصور من زوايا متعددة (cross-view completion)، وهو تنويع لنمذجة الصور المُغطاة يستفيد من صورة ثانية لنفس المشهد، مما يجعله مناسبًا جدًا للمهام الهيكلية الثنائية (binocular downstream tasks). ومع ذلك، ظل تطبيق هذا المفهوم محدودًا حتى الآن على الأقل بسببين: (أ) صعوبة جمع أزواج صور واقعية – حيث تم استخدام البيانات الاصطناعية فقط في الممارسة العملية – و(ب) قلة قدرة النماذج الأساسية (vanilla transformers) على التعميم في المهام الهيكلية الكثيفة، التي يكون فيها الموقع النسبي أكثر أهمية من الموقع المطلق. نستكشف ثلاث مسارات للتحسين. أولاً، نقدم طريقة لجمع أزواج صور واقعية مناسبة على نطاق واسع. ثانيًا، نجرب استخدام تمثيلات الموضع النسبي (relative positional embeddings) ونُظهر أن هذه الطريقة تُمكّن نماذج التحويل البصري (vision transformers) من أداء أفضل بشكل ملحوظ. ثالثًا، نُوسع نطاق معمارية التحويل البصري القائمة على الإكمال المتقاطع (cross-completion)، وهو ما أصبح ممكنًا بفضل استخدام كميات كبيرة من البيانات. وباستخدام هذه التحسينات، نُظهر لأول مرة أن النتائج الرائدة في مطابقة الأزواج الثنائية والتدفق الضوئي يمكن تحقيقها دون استخدام أي تقنيات تقليدية مخصصة للمهام مثل حجم الترابط (correlation volume) أو التقدير التكراري أو تحويل الصور (image warping) أو الاستدلال متعدد المقياس (multi-scale reasoning)، مما يُمهد الطريق نحو نماذج بصرية عامة (universal vision models).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp