HyperAIHyperAI
منذ 17 أيام

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي

Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud
كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي
الملخص

على الرغم من الأداء المتميز في المهام الهيكلية العليا، لم تُحقق أساليب التدريب الذاتي المسبق بعد النتائج الكاملة في المهام البصرية الهندسية الكثيفة مثل مطابقة الأزواج الثنائية (stereo matching) أو التدفق الضوئي (optical flow). يُعد تطبيق مفاهيم التدريب الذاتي المسبق، مثل تمييز المثيلات أو نمذجة الصور المُغطاة (masked image modeling)، على المهام الهندسية مجالًا بحثيًا نشطًا. في هذه الدراسة، نبني على الإطار الحديث لإكمال الصور من زوايا متعددة (cross-view completion)، وهو تنويع لنمذجة الصور المُغطاة يستفيد من صورة ثانية لنفس المشهد، مما يجعله مناسبًا جدًا للمهام الهيكلية الثنائية (binocular downstream tasks). ومع ذلك، ظل تطبيق هذا المفهوم محدودًا حتى الآن على الأقل بسببين: (أ) صعوبة جمع أزواج صور واقعية – حيث تم استخدام البيانات الاصطناعية فقط في الممارسة العملية – و(ب) قلة قدرة النماذج الأساسية (vanilla transformers) على التعميم في المهام الهيكلية الكثيفة، التي يكون فيها الموقع النسبي أكثر أهمية من الموقع المطلق. نستكشف ثلاث مسارات للتحسين. أولاً، نقدم طريقة لجمع أزواج صور واقعية مناسبة على نطاق واسع. ثانيًا، نجرب استخدام تمثيلات الموضع النسبي (relative positional embeddings) ونُظهر أن هذه الطريقة تُمكّن نماذج التحويل البصري (vision transformers) من أداء أفضل بشكل ملحوظ. ثالثًا، نُوسع نطاق معمارية التحويل البصري القائمة على الإكمال المتقاطع (cross-completion)، وهو ما أصبح ممكنًا بفضل استخدام كميات كبيرة من البيانات. وباستخدام هذه التحسينات، نُظهر لأول مرة أن النتائج الرائدة في مطابقة الأزواج الثنائية والتدفق الضوئي يمكن تحقيقها دون استخدام أي تقنيات تقليدية مخصصة للمهام مثل حجم الترابط (correlation volume) أو التقدير التكراري أو تحويل الصور (image warping) أو الاستدلال متعدد المقياس (multi-scale reasoning)، مما يُمهد الطريق نحو نماذج بصرية عامة (universal vision models).

كروكو فئـة 2: التدريب المسبق المُحسَّن للإكمال عبر الرؤى لتطابق الاستيريو وتدفق الضوئي | أحدث الأوراق البحثية | HyperAI