HyperAIHyperAI
منذ 15 أيام

التعلم النقل الفعّال من حيث المعلمات لاسترجاع الصور والنصوص من الاستشعار عن بعد

Yuan Yuan, Yang Zhan, Zhitong Xiong
التعلم النقل الفعّال من حيث المعلمات لاسترجاع الصور والنصوص من الاستشعار عن بعد
الملخص

أظهرت نماذج التدريب المسبق للرؤية واللغة (VLP) ارتفاعًا ملحوظًا في الشعبية مؤخرًا. حيث تم ملاحظة تحسينات كبيرة في الأداء عند تدريبها بدقة على مجموعات بيانات محددة في مهام متعددة. ومع ذلك، فإن التدريب الدقيق الكامل لنموذج VLP لا يُستهلك فقط كميات كبيرة من الموارد الحاسوبية، بل يُحدث أيضًا أثرًا بيئيًا كبيرًا. علاوةً على ذلك، نظرًا لأن بيانات الاستشعار عن بعد (RS) تُحدَّث باستمرار، فإن التدريب الدقيق الكامل قد لا يكون عمليًا في التطبيقات الواقعية. ولحل هذه المشكلة، نستعرض في هذا العمل منهج التعلم الناقل الفعال من حيث المعلمات (PETL) لنقل المعرفة البصرية-اللغوية من المجال الطبيعي إلى مجال الاستشعار عن بعد بشكل فعّال وكفؤ في مهمة استرجاع الصورة والنص. لتحقيق هذا الهدف، نقدم المساهمات التالية:1) بناء إطار عمل جديد ومتقدم لـ PETL في مهمة استرجاع الصورة والنص في مجال الاستشعار عن بعد (RSITR)، يتضمن نموذج CLIP المُدرَّب مسبقًا، ومُعدِّل متعدد الوسائط مخصص للاستشعار عن بعد، ووظيفة تعلُّم تبايني متعدد الوسائط هجين (HMMC)؛2) لمعالجة مشكلة التشابه العالي داخل الوسائط في بيانات الاستشعار عن بعد، قمنا بتصميم دالة خسارة HMMC بسيطة ولكنها فعّالة؛3) نقدم دراسات تجريبية شاملة حول تطبيق PETL في استرجاع الصورة والنص في مجال الاستشعار عن بعد. تُظهر نتائجنا أن المنهج المقترح واعد ويحمل إمكانات كبيرة للتطبيقات العملية؛4) نُقيّم مجموعة واسعة من أحدث أساليب PETL في مهمة RSITR. يحتوي نموذجنا المقترح على 0.16 مليون معلمة قابلة للتدريب فقط، ما يمثل تخفيضًا بنسبة 98.9% مقارنة بالتدريب الدقيق الكامل، مما يؤدي إلى وفورات كبيرة في تكاليف التدريب. كما تفوق أداء الاسترجاع لدينا الطرق التقليدية بنسبة 7-13%، ويحقق أداءً مماثلًا أو أفضل من التدريب الدقيق الكامل. يُعد هذا العمل مصدرًا جديدًا للإلهام ويوفر رؤى مفيدة لمهام الرؤية واللغة في مجال الاستشعار عن بعد.

التعلم النقل الفعّال من حيث المعلمات لاسترجاع الصور والنصوص من الاستشعار عن بعد | أحدث الأوراق البحثية | HyperAI