HyperAIHyperAI
منذ 16 أيام

RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد

Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin
RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد
الملخص

أظهرت نماذج الرؤية واللغة المُدرَّبة مسبقًا (VLMs) التي تعتمد على كميات ضخمة من البيانات المزدوجة بين الصور والنصوص قدرات غير مسبوقة في ربط الصور بالنصوص، وحققت نتائج مبهرة في مجموعة واسعة من المهام اللاحقة. يمثل التحدي الرئيسي كيفية استغلال النماذج المُدرَّبة مسبقًا على نطاق واسع، والتي تم تدريبها على كائنات شائعة، لتنفيذ نقل مُخصص للنطاق (domain-specific transfer) من أجل إنجاز المهام اللاحقة المرتبطة بنطاق معين. في هذه الورقة، نقترح إطارًا جديدًا يشمل نموذج الرؤية واللغة المُدرَّب مسبقًا للمجال (DVLM)، والذي يُعوّض الفجوة بين النموذج العام لرؤية اللغة (GVLM) والمهام اللاحقة المخصصة للمجال. علاوةً على ذلك، نقدّم مجموعة بيانات مزدوجة بين الصور والنصوص في مجال الاستشعار عن بعد (RS)، تُسمى RS5M، والتي تحتوي على 5 ملايين صورة استشعار عن بعد مصحوبة بوصف إنجليزي. تم الحصول على هذه المجموعة من خلال تنقية مجموعات بيانات مزدوجة متاحة علنًا، وتطبيق تسمية تلقائية على مجموعات بيانات استشعار عن بعد ذات علامات نصية فقط باستخدام نموذج VLM المُدرَّب مسبقًا. تمثل هذه المجموعة أول مجموعة بيانات ضخمة للصور والنصوص في مجال الاستشعار عن بعد. بالإضافة إلى ذلك، قمنا بتحسين نموذج CLIP وتجريب عدة طرق لتحسين المعلمات بكفاءة (Parameter-Efficient Fine-Tuning) على مجموعة RS5M لتنفيذ نموذج DVLM. أظهرت النتائج التجريبية أن مجموعة البيانات المقترحة فعّالة جدًا في مجموعة متنوعة من المهام، وأن نموذجنا GeoRSCLIP يتفوّق على النموذج الأساسي أو النماذج السابقة المُتقدمة بنسبة تتراوح بين 3% و20% في مهام التصنيف بدون عينات (Zero-shot Classification - ZSC)، وبنسبة تتراوح بين 3% و6% في مهام استرجاع الصور والنصوص عبر الوسائط في الاستشعار عن بعد (Remote Sensing Cross-Modal Text-Image Retrieval - RSCTIR)، وبنسبة تتراوح بين 4% و5% في مهام التوصيف الدلالي (Semantic Localization - SeLo). تم إصدار مجموعة البيانات والنموذج على الرابط التالي: \url{https://github.com/om-ai-lab/RS5M}.

RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد | أحدث الأوراق البحثية | HyperAI