منذ 6 أشهر

الملخص

أظهرت نماذج الرؤية واللغة المُدرَّبة مسبقًا (VLMs) التي تعتمد على كميات ضخمة من البيانات المزدوجة بين الصور والنصوص قدرات غير مسبوقة في ربط الصور بالنصوص، وحققت نتائج مبهرة في مجموعة واسعة من المهام اللاحقة. يمثل التحدي الرئيسي كيفية استغلال النماذج المُدرَّبة مسبقًا على نطاق واسع، والتي تم تدريبها على كائنات شائعة، لتنفيذ نقل مُخصص للنطاق (domain-specific transfer) من أجل إنجاز المهام اللاحقة المرتبطة بنطاق معين. في هذه الورقة، نقترح إطارًا جديدًا يشمل نموذج الرؤية واللغة المُدرَّب مسبقًا للمجال (DVLM)، والذي يُعوّض الفجوة بين النموذج العام لرؤية اللغة (GVLM) والمهام اللاحقة المخصصة للمجال. علاوةً على ذلك، نقدّم مجموعة بيانات مزدوجة بين الصور والنصوص في مجال الاستشعار عن بعد (RS)، تُسمى RS5M، والتي تحتوي على 5 ملايين صورة استشعار عن بعد مصحوبة بوصف إنجليزي. تم الحصول على هذه المجموعة من خلال تنقية مجموعات بيانات مزدوجة متاحة علنًا، وتطبيق تسمية تلقائية على مجموعات بيانات استشعار عن بعد ذات علامات نصية فقط باستخدام نموذج VLM المُدرَّب مسبقًا. تمثل هذه المجموعة أول مجموعة بيانات ضخمة للصور والنصوص في مجال الاستشعار عن بعد. بالإضافة إلى ذلك، قمنا بتحسين نموذج CLIP وتجريب عدة طرق لتحسين المعلمات بكفاءة (Parameter-Efficient Fine-Tuning) على مجموعة RS5M لتنفيذ نموذج DVLM. أظهرت النتائج التجريبية أن مجموعة البيانات المقترحة فعّالة جدًا في مجموعة متنوعة من المهام، وأن نموذجنا GeoRSCLIP يتفوّق على النموذج الأساسي أو النماذج السابقة المُتقدمة بنسبة تتراوح بين 3% و20% في مهام التصنيف بدون عينات (Zero-shot Classification - ZSC)، وبنسبة تتراوح بين 3% و6% في مهام استرجاع الصور والنصوص عبر الوسائط في الاستشعار عن بعد (Remote Sensing Cross-Modal Text-Image Retrieval - RSCTIR)، وبنسبة تتراوح بين 4% و5% في مهام التوصيف الدلالي (Semantic Localization - SeLo). تم إصدار مجموعة البيانات والنموذج على الرابط التالي: \url{https://github.com/om-ai-lab/RS5M}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RS5M وGeoRSCLIP: مجموعة بيانات ضخمة متعددة الوسائط بصرية-لغوية ونموذج بصرى-لغوى ضخم للتصوير عن بعد

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters