Command Palette
Search for a command to run...
JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

الملخص
استخدام المُعطيات البصرية المُسبقة المُكتسبة من نماذج التوليد النصية إلى الصورية (T2I) المُدرّبة مسبقًا أظهر نجاحًا في المهام التنبؤية الكثيفة. ومع ذلك، فإن التنبؤ الكثيف هو بطبيعته مهمة من الصورة إلى الصورة، مما يوحي بأن نماذج تعديل الصور، بدلًا من نماذج التوليد النصية إلى الصورية، قد تكون أساسًا أكثر ملاءمة لعملية التخصيص الدقيق. مُحفّزًا بهذا التوجه، نُجري تحليلًا منهجيًا لسلوك التخصيص الدقيق لكل من نماذج التعديل ونماذج التوليد في سياق تقدير الهندسة الكثيفة. وتكشف نتائجنا أن نماذج التعديل تمتلك مُعطيات هيكلية مُتأصلة، مما يمكّنها من التقارب بشكل أكثر استقرارًا من خلال "تحسين" ميزاتها الطبيعية، وتحقيق أداءً أعلى مقارنة بنماذج التوليد ذاتها. استنادًا إلى هذه النتائج، نُقدّم FE2E، وهي إطار عمل يُعدّ أول إطار يُعدّل نموذج تعديل متقدم مبني على معمارية "مُحول التشتت" (Diffusion Transformer - DiT) لتقدير الهندسة الكثيفة. وبشكل محدد، لتكيف النموذج مع المهمة المحددة، نعيد صياغة دالة الخسارة الأصلية لتماثل التدفق (flow matching loss) إلى هدف تدريب جديد يُسمّى "السرعة الموحدة" (consistent velocity). كما نستخدم التكميم اللوغاريتمي (logarithmic quantization) للتغلب على تناقض الدقة بين التنسيق القياسي للنموذج (BFloat16) والمتطلبات العالية للدقة في مهامنا. بالإضافة إلى ذلك، نستفيد من انتباه النموذج العالمي (global attention) في معمارية DiT لتحقيق تقديرًا جماعيًا مجانيًا للعمق والاتجاهات العادية (normals) في عملية تمرير واحدة، مما يسمح لإشارات التوجيه الخاصة بهما بالتعزيز المتبادل. وبدون الحاجة إلى توسيع حجم بيانات التدريب، تحقق FE2E تحسينات ملحوظة في الأداء في مهام التقدير الصوتي الصغير (zero-shot monocular depth) والاتجاهات العادية عبر عدة مجموعات بيانات. وبشكل لافت، حققت تحسينات تزيد عن 35٪ في مجموعة بيانات ETH3D، وتفوقت على سلسلة DepthAnything التي تم تدريبها على بيانات تزيد عن 100 مرة. يمكن الوصول إلى صفحة المشروع من خلال الرابط التالي: https://amap-ml.github.io/FE2E/{here}.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.