HyperAIHyperAI
منذ 9 أيام

توسيع النمذجة الصورية المقنعة بكفاءة على مجموعة بيانات ضخمة للتصوير عن بعد

Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun
توسيع النمذجة الصورية المقنعة بكفاءة على مجموعة بيانات ضخمة للتصوير عن بعد
الملخص

أصبح نمذجة الصور المُقنعة (MIM) طريقة أساسية لبناء النماذج البصرية الأساسية في الاستشعار عن بعد (RS). ومع ذلك، تُحدّ من محدودية الحجم وتنوع البيانات المتاحة في مجموعات البيانات الحالية من قدرة طرق MIM على تعلّم تمثيلات قابلة للتطبيق بشكل عام. بالإضافة إلى ذلك، فإن التقنيات التقليدية لـ MIM، التي تتطلب إعادة بناء جميع الرموز (tokens)، تُسبب عبئًا حسابيًا غير ضروري. ولحل هذه المشكلات، نقدّم نموذجًا جديدًا للتدريب المسبق للنماذج في الاستشعار عن بعد، يشمل إنشاء مجموعة بيانات ضخمة في مجال RS وطريقة فعّالة لـ MIM. وقد قمنا بجمع مجموعة بيانات عالية الجودة تُسمّى OpticalRS-13M من خلال استخلاص مجموعات بيانات RS متاحة علنًا، ثم معالجتها عبر عمليات الاستبعاد، والتقسيم، والتخلص من التكرارات. تتكوّن OpticalRS-13M من 13 مليون صورة بصرية تغطي مهامًا متنوعة في الاستشعار عن بعد، مثل كشف الكائنات وتصنيف البكسلات. ولتعزيز الكفاءة، نقترح طريقة التدريب المسبق SelectiveMAE، التي تقوم بتشفير واعٍ وإعادة بناء الرموز المرتبطة بالقطعة ذات المضمون البُنيوي الغني، مما يقلل من عدم الكفاءة الناتجة عن وجود بكسلات خلفية زائدة في الصور من مجال الاستشعار عن بعد، التي تُستخدم في النماذج التقليدية لـ MIM. تُظهر التجارب الواسعة أن OpticalRS-13M تحسّن بشكل كبير أداء التصنيف والكشف والتقسيم، في حين أن SelectiveMAE تزيد من كفاءة التدريب بأكثر من الضعف. ويُبرز هذا الفعالية والقابلية للتوسع في نهجنا لتطوير النماذج الأساسية في مجال الاستشعار عن بعد.