HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

من المحرر إلى مُقدّر الهندسة الكثيفة

JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

من المحرر إلى مُقدّر الهندسة الكثيفة

الملخص

استخدام المُعطيات البصرية المُسبقة المُكتسبة من نماذج التوليد النصية إلى الصورية (T2I) المُدرّبة مسبقًا أظهر نجاحًا في المهام التنبؤية الكثيفة. ومع ذلك، فإن التنبؤ الكثيف هو بطبيعته مهمة من الصورة إلى الصورة، مما يوحي بأن نماذج تعديل الصور، بدلًا من نماذج التوليد النصية إلى الصورية، قد تكون أساسًا أكثر ملاءمة لعملية التخصيص الدقيق. مُحفّزًا بهذا التوجه، نُجري تحليلًا منهجيًا لسلوك التخصيص الدقيق لكل من نماذج التعديل ونماذج التوليد في سياق تقدير الهندسة الكثيفة. وتكشف نتائجنا أن نماذج التعديل تمتلك مُعطيات هيكلية مُتأصلة، مما يمكّنها من التقارب بشكل أكثر استقرارًا من خلال "تحسين" ميزاتها الطبيعية، وتحقيق أداءً أعلى مقارنة بنماذج التوليد ذاتها. استنادًا إلى هذه النتائج، نُقدّم FE2E، وهي إطار عمل يُعدّ أول إطار يُعدّل نموذج تعديل متقدم مبني على معمارية "مُحول التشتت" (Diffusion Transformer - DiT) لتقدير الهندسة الكثيفة. وبشكل محدد، لتكيف النموذج مع المهمة المحددة، نعيد صياغة دالة الخسارة الأصلية لتماثل التدفق (flow matching loss) إلى هدف تدريب جديد يُسمّى "السرعة الموحدة" (consistent velocity). كما نستخدم التكميم اللوغاريتمي (logarithmic quantization) للتغلب على تناقض الدقة بين التنسيق القياسي للنموذج (BFloat16) والمتطلبات العالية للدقة في مهامنا. بالإضافة إلى ذلك، نستفيد من انتباه النموذج العالمي (global attention) في معمارية DiT لتحقيق تقديرًا جماعيًا مجانيًا للعمق والاتجاهات العادية (normals) في عملية تمرير واحدة، مما يسمح لإشارات التوجيه الخاصة بهما بالتعزيز المتبادل. وبدون الحاجة إلى توسيع حجم بيانات التدريب، تحقق FE2E تحسينات ملحوظة في الأداء في مهام التقدير الصوتي الصغير (zero-shot monocular depth) والاتجاهات العادية عبر عدة مجموعات بيانات. وبشكل لافت، حققت تحسينات تزيد عن 35٪ في مجموعة بيانات ETH3D، وتفوقت على سلسلة DepthAnything التي تم تدريبها على بيانات تزيد عن 100 مرة. يمكن الوصول إلى صفحة المشروع من خلال الرابط التالي: https://amap-ml.github.io/FE2E/{here}.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
من المحرر إلى مُقدّر الهندسة الكثيفة | الأوراق البحثية | HyperAI