الملخص

على الرغم من الأداء المتميز في المهام الهيكلية العليا، لم تُحقق أساليب التدريب الذاتي المسبق بعد النتائج الكاملة في المهام البصرية الهندسية الكثيفة مثل مطابقة الأزواج الثنائية (stereo matching) أو التدفق الضوئي (optical flow). يُعد تطبيق مفاهيم التدريب الذاتي المسبق، مثل تمييز المثيلات أو نمذجة الصور المُغطاة (masked image modeling)، على المهام الهندسية مجالًا بحثيًا نشطًا. في هذه الدراسة، نبني على الإطار الحديث لإكمال الصور من زوايا متعددة (cross-view completion)، وهو تنويع لنمذجة الصور المُغطاة يستفيد من صورة ثانية لنفس المشهد، مما يجعله مناسبًا جدًا للمهام الهيكلية الثنائية (binocular downstream tasks). ومع ذلك، ظل تطبيق هذا المفهوم محدودًا حتى الآن على الأقل بسببين: (أ) صعوبة جمع أزواج صور واقعية – حيث تم استخدام البيانات الاصطناعية فقط في الممارسة العملية – و(ب) قلة قدرة النماذج الأساسية (vanilla transformers) على التعميم في المهام الهيكلية الكثيفة، التي يكون فيها الموقع النسبي أكثر أهمية من الموقع المطلق. نستكشف ثلاث مسارات للتحسين. أولاً، نقدم طريقة لجمع أزواج صور واقعية مناسبة على نطاق واسع. ثانيًا، نجرب استخدام تمثيلات الموضع النسبي (relative positional embeddings) ونُظهر أن هذه الطريقة تُمكّن نماذج التحويل البصري (vision transformers) من أداء أفضل بشكل ملحوظ. ثالثًا، نُوسع نطاق معمارية التحويل البصري القائمة على الإكمال المتقاطع (cross-completion)، وهو ما أصبح ممكنًا بفضل استخدام كميات كبيرة من البيانات. وباستخدام هذه التحسينات، نُظهر لأول مرة أن النتائج الرائدة في مطابقة الأزواج الثنائية والتدفق الضوئي يمكن تحقيقها دون استخدام أي تقنيات تقليدية مخصصة للمهام مثل حجم الترابط (correlation volume) أو التقدير التكراري أو تحويل الصور (image warping) أو الاستدلال متعدد المقياس (multi-scale reasoning)، مما يُمهد الطريق نحو نماذج بصرية عامة (universal vision models).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters