HyperAIHyperAI
منذ 9 أيام

الانتقال نحو نموذج رؤية بسيط لتحويلة الرؤية لنموذج أساسي للمسح عن بعد

Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang
الانتقال نحو نموذج رؤية بسيط لتحويلة الرؤية لنموذج أساسي للمسح عن بعد
الملخص

أحرزت النماذج الأساسية الكبيرة للرؤية تقدماً كبيراً في المهام البصرية على الصور الطبيعية، حيث أصبحت نماذج المحولات البصرية (Vision Transformers) الخيار الرئيسي بفضل قدرتها العالية على التوسع وقدرتها على التمثيل. ومع ذلك، لم تُستكشف بعد النماذج الكبيرة في مجال الاستشعار عن بعد (RS) بشكل كافٍ. في هذه الورقة، نعتمد على نماذج المحولات البصرية البسيطة التي تحتوي على حوالي 100 مليون معلمة، ونقوم لأول مرة بطرح نماذج بصرية كبيرة مصممة خصيصاً للمهام المتعلقة بالاستشعار عن بعد، وندرس أداء هذه النماذج الكبيرة. ولمعالجة حجم الصور الكبيرة والكائنات ذات الاتجاهات العشوائية في صور الاستشعار عن بعد، نقترح انتباهًا نافذة مُتغيرة الاتجاه وبحجم متغير جديد، يحل محل الانتباه الكامل الأصلي في المحولات، مما يقلل بشكل كبير من التكلفة الحسابية وحجم الذاكرة، مع تحسين تمثيل الكائنات من خلال استخلاص سياق غني من النوافذ المتنوعة المُنتجة. تُظهر النتائج التجريبية في مهام الكشف تفوق نموذجنا على جميع النماذج الحالية الأفضل (state-of-the-art)، حيث حقق 81.24% في مقياس mAP على مجموعة بيانات DOTA-V1.0. كما تُظهر نتائج نماذجنا في المهام التالية مثل التصنيف والتقسيم أداءً تنافسياً مقارنة بالطرق المتقدمة الحالية. وتشير التجارب الإضافية إلى المزايا التي تتمتع بها نماذجنا من حيث التعقيد الحسابي وكفاءة البيانات عند التحويل (transfer).