HyperAIHyperAI
منذ 15 أيام

RemoteCLIP: نموذج أساسي لغوي بصري لاستشعار عن بعد

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou
RemoteCLIP: نموذج أساسي لغوي بصري لاستشعار عن بعد
الملخص

أدت النماذج الأساسية العامة إلى تقدم حديث في الذكاء الاصطناعي. في مجال الاستشعار عن بعد، تم اعتماد التعلم ذاتي التحفيز (SSL) ونمذجة الصور المُقنعة (MIM) لبناء نماذج أساسية. ومع ذلك، فإن هذه النماذج تتعلم بشكل رئيسي السمات من المستوى المنخفض، وتحتاج إلى بيانات مُعلمة لضبط الدقة. علاوةً على ذلك، فهي غير قابلة للتطبيق في المهام المتعلقة بالاسترجاع والتطبيقات الصفرية الحالة بسبب نقص الفهم اللغوي. لمعالجة هذه القيود، نقترح RemoteCLIP، وهي أول نموذج أساسي بصري-لغوي مُخصص للاستشعار عن بعد، يهدف إلى تعلم سمات بصرية قوية ذات معاني غنية، وتمييزات نصية متماشية، لتمكين تطبيقات لاحقة سلسة. ولحل مشكلة ندرة بيانات التدريب المسبق، نستخدم تقنية توسيع البيانات التي تحول التسميات المتنوعة إلى تنسيق موحد للبيانات الصورة-الوصف، بناءً على تحويلات المربع إلى وصف (B2C) وتحويل القناع إلى مربع (M2B). وبإدراج صور الطائرات غير المأهولة (UAV) بشكل إضافي، نُنتج مجموعة بيانات تدريب مسبقة تزيد حجمها عن 12 مرة مقارنةً بمجاميع جميع المجموعات المتاحة. يمكن تطبيق RemoteCLIP على مجموعة متنوعة من المهام اللاحقة، بما في ذلك التصنيف الصوري الصفرية الحالة، والتدقيق الخطي، والتصنيف باستخدام k-NN، والتصنيف القليل النموذج، واسترجاع الصورة والنص، وحساب الكائنات في صور الاستشعار عن بعد. أظهرت التقييمات على 16 مجموعة بيانات، بما في ذلك معيار RemoteCount الجديد المُقدَّم لاختبار قدرة الحساب الكائني، أن RemoteCLIP تتفوق باستمرار على النماذج الأساسية الأساسية في مختلف أحجام النموذج. وبشكل ملحوظ، تتفوق RemoteCLIP على أفضل الأسلوب الحالي بنسبة 9.14% في متوسط الاسترجاع على مجموعة بيانات RSITMD، وبنسبة 8.92% على مجموعة بيانات RSICD. وفي مهام التصنيف الصفرية الحالة، تتفوق RemoteCLIP على النموذج الأساسي CLIP بنسبة تصل إلى 6.39% في الدقة المتوسطة على 12 مجموعة بيانات لاحقة. الموقع الإلكتروني للمشروع: https://github.com/ChenDelong1999/RemoteCLIP

RemoteCLIP: نموذج أساسي لغوي بصري لاستشعار عن بعد | أحدث الأوراق البحثية | HyperAI