HyperAI
منذ 16 أيام

من المثالي إلى الحقيقي: التنبؤ الكثيف الموحد والفعال من حيث البيانات للسيناريوهات الحقيقية

Changliang Xia; Chengyou Jia; Zhuohang Dang; Minnan Luo
من المثالي إلى الحقيقي: التنبؤ الكثيف الموحد والفعال من حيث البيانات للسيناريوهات الحقيقية
الملخص

تتمتع مهام التنبؤ الكثيف بأهمية كبيرة في مجال رؤية الحاسوب، حيث تهدف إلى تعلم التسميات المُشَرَّحة لكل بكسل في صورة مدخل. رغم التقدم الذي أحرزته هذه المجال، فإن الأساليب الحالية تركز بشكل أساسي على الظروف المثالية، مع قدرة محدودة على التعميم إلى السيناريوهات الواقعية ومواجهة تحدي ندرة البيانات الواقعية. لدراسة هذه المشكلة بطريقة منهجية، نقدم أولاً DenseWorld (كثافة العالم)، وهو معيار يغطي مجموعة واسعة من 25 مهمة تنبؤ كثيف تتوافق مع التطبيقات العاجلة في العالم الحقيقي، مع تقديم تقييم موحد عبر المهام. ثم نقترح DenseDiT (كثافة دي تي)، والذي يستغل بشكل كبير الأولويات البصرية للنماذج الجenerative (المنتجة) لأداء مجموعة متنوعة من مهام التنبؤ الكثيف الواقعية من خلال استراتيجية موحدة. يجمع DenseDiT بين آلية إعادة استخدام المعلمات وفرعين خفيفين يدمجان السياق متعدد المقاييس بشكل مرناً، يعملان باستخدام أقل من 0.1% من المعلمات الإضافية. كشفت التقييمات على DenseWorld عن انخفاض كبير في الأداء للأسس العامة والمتخصصة الحالية، مما يؤكد على قدرتها المحدودة على التعميم في العالم الحقيقي. بالمقابل، حقق DenseDiT نتائج أفضل باستخدام أقل من 0.01% من بيانات التدريب المستخدمة في الأسس الأخرى، مما يؤكد قيمته العملية للنشر في العالم الحقيقي. يمكن الوصول إلى بياناتنا ونقاط الفحص والأكواد عبر الرابط: https://xcltql666.github.io/DenseDiTProj