نموذج أساسي بحجم بليون لصور الاستشعار عن بعد

مع ازدياد الاهتمام بقدرات النماذج الأساسية في المهام البصرية، أصبح تدريب النماذج مسبقًا قبل المهام التالية خطوة حاسمة. وتشكل ثلاث عوامل رئيسية في تدريب النماذج الأساسية: طريقة التدريب المسبق، وحجم مجموعة بيانات التدريب، وعدد معلمات النموذج. في الآونة الأخيرة، ركز البحث في مجال الاستشعار عن بعد بشكل رئيسي على طريقة التدريب المسبق وحجم مجموعة البيانات، مع اهتمام محدود بعدد معلمات النموذج. تتناول هذه الورقة هذا الفجوة من خلال دراسة تأثير زيادة عدد معلمات النموذج على أداء النماذج الأساسية في المهام التالية، مثل كشف الكائنات المُتَدَوِّرة والتقسيم الدلالي. تم تدريب نماذج أساسية بمقاييس مختلفة من المعلمات، تشمل 86 مليونًا، و605.26 مليونًا، و1.3 مليارًا، و2.4 مليارًا، بهدف تحديد ما إذا كان الأداء في المهام التالية يتحسن مع زيادة عدد المعلمات. إلى حد معرفتنا، فإن هذه هي أول نموذج أساسي بمقاييس تصل إلى المليار في مجال الاستشعار عن بعد. علاوةً على ذلك، نقترح طريقة فعّالة لتوسيع نموذج المُحَوِّل البصري وتنقيحه في مجال الاستشعار عن بعد. ولتقييم الأداء العام في المهام التالية، استخدمنا مجموعتي بيانات معياريتين: DOTA v2.0 وDIOR-R للكشف عن الكائنات المُتَدَوِّرة، وPotsdam وLoveDA للتقسيم الدلالي. أظهرت النتائج التجريبية أن أداء النماذج الأساسية وفعالية البيانات تتحسن مع زيادة عدد المعلمات، في جميع مجموعات البيانات المعيارية والمهام التالية. علاوةً على ذلك، تحقق نماذجنا أداءً متقدمًا في مجالات متعددة، بما في ذلك DIOR-R وPotsdam وLoveDA.