HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع النمذجة الصورية المقنعة بكفاءة على مجموعة بيانات ضخمة للتصوير عن بعد

Fengxiang Wang Hongzhen Wang Di Wang Zonghao Guo Zhenyu Zhong Long Lan Jing Zhang Zhiyuan Liu Maosong Sun

الملخص

أصبح نمذجة الصور المُقنعة (MIM) طريقة أساسية لبناء النماذج البصرية الأساسية في الاستشعار عن بعد (RS). ومع ذلك، تُحدّ من محدودية الحجم وتنوع البيانات المتاحة في مجموعات البيانات الحالية من قدرة طرق MIM على تعلّم تمثيلات قابلة للتطبيق بشكل عام. بالإضافة إلى ذلك، فإن التقنيات التقليدية لـ MIM، التي تتطلب إعادة بناء جميع الرموز (tokens)، تُسبب عبئًا حسابيًا غير ضروري. ولحل هذه المشكلات، نقدّم نموذجًا جديدًا للتدريب المسبق للنماذج في الاستشعار عن بعد، يشمل إنشاء مجموعة بيانات ضخمة في مجال RS وطريقة فعّالة لـ MIM. وقد قمنا بجمع مجموعة بيانات عالية الجودة تُسمّى OpticalRS-13M من خلال استخلاص مجموعات بيانات RS متاحة علنًا، ثم معالجتها عبر عمليات الاستبعاد، والتقسيم، والتخلص من التكرارات. تتكوّن OpticalRS-13M من 13 مليون صورة بصرية تغطي مهامًا متنوعة في الاستشعار عن بعد، مثل كشف الكائنات وتصنيف البكسلات. ولتعزيز الكفاءة، نقترح طريقة التدريب المسبق SelectiveMAE، التي تقوم بتشفير واعٍ وإعادة بناء الرموز المرتبطة بالقطعة ذات المضمون البُنيوي الغني، مما يقلل من عدم الكفاءة الناتجة عن وجود بكسلات خلفية زائدة في الصور من مجال الاستشعار عن بعد، التي تُستخدم في النماذج التقليدية لـ MIM. تُظهر التجارب الواسعة أن OpticalRS-13M تحسّن بشكل كبير أداء التصنيف والكشف والتقسيم، في حين أن SelectiveMAE تزيد من كفاءة التدريب بأكثر من الضعف. ويُبرز هذا الفعالية والقابلية للتوسع في نهجنا لتطوير النماذج الأساسية في مجال الاستشعار عن بعد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp