استرجاع الصور المركبة للاستشعار عن بعد

يقدم هذا العمل مفهوم استرجاع الصور المركبة في مجال الاستشعار عن بعد. يتيح هذا المفهوم إمكانية البحث في أرشيف صور كبير باستخدام أمثلة صورية متبوعة بوصف نصي، مما يثري قوة الوصف مقارنة بالاستعلامات الأحادية النمط سواء كانت بصرية أو نصية. يمكن تعديل العديد من السمات بواسطة الجزء النصي، مثل الشكل واللون والسياق. تم تقديم طريقة جديدة تدمج بين تشابه الصورة مع الصورة وتشابه النص مع الصورة. نوضح أن نموذج الرؤية-اللغة يمتلك قوة وصف كافية ولا يتطلب خطوات تعلم إضافية أو بيانات تدريب. نقدم مقاييس تقييم جديدة تركز على تعديلات اللون والسياق والكثافة والوجود والكمية والشكل. لا يقتصر عملنا على تحقيق أفضل الأداء لهذا المهمة فحسب، بل يشكل أيضًا خطوة أساسية في سد الفجوة الموجودة في مجال استرجاع صور الاستشعار عن بعد. الكود متاح على: https://github.com/billpsomas/rscir