سفن في المدى: نماذج التشتت لتحسين دقة صور السفن

في السنوات الأخيرة، تم تحقيق تقدم ملحوظ في مجال توليد الصور، وتمّ دفع هذا التقدم بشكل رئيسي من خلال الطلب المتزايد على نتائج عالية الجودة في مختلف المهام الفرعية لتوليد الصور، مثل الترميم (inpainting)، وإزالة الضوضاء (denoising)، وزيادة الدقة (super resolution). وتركز جهود كبيرة على استكشاف تطبيق تقنيات زيادة الدقة لتحسين جودة الصور ذات الدقة المنخفضة. وفي هذا السياق، نستعرض في طريقة عملنا مشكلة تحسين دقة صور السفن، التي تُعدّ حيوية لمهام المراقبة الساحلية والموانئ. ونستغل الفرصة التي توفرها الاهتمام المتزايد بالنماذج التوزيعية التي تُولّد صورًا بناءً على النص (text-to-image diffusion models)، مع الاستفادة من المعرفة السابقة التي تعلّمتها هذه النماذج الأساسية. وبشكل خاص، نقدّم بنية تعتمد على النماذج التوزيعية (diffusion-model-based architecture)، تُستخدم التحفيز النصي (text conditioning) أثناء التدريب، مع امتلاك وعي بالفئة (class-aware)، بهدف الحفاظ على التفاصيل الحاسمة للسفن أثناء عملية توليد الصورة عالية الدقة. وبسبب الطبيعة الخاصة لهذه المهمة، وقلة توفر البيانات الجاهزة، نقدّم أيضًا مجموعة بيانات كبيرة مُصنّفة لصور السفن، تم جمعها من صور السفن المتاحة على الإنترنت، وخصوصًا من موقع ShipSpotting\footnote{\url{www.shipspotting.com}}. تُظهر طريقة العمل لدينا نتائج أكثر متانة مقارنةً بالنماذج العميقة السابقة المستخدمة في زيادة الدقة، كما أثبتت ذلك التجارب المتعددة التي أجريناها. علاوةً على ذلك، نستكشف كيف يمكن لهذا النموذج أن يُفيد المهام اللاحقة مثل التصنيف وتحديد الكائنات، مما يُبرز جدوى تطبيقه في سياقات واقعية. وتُظهر النتائج التجريبية مرونة وموثوقية وأداءً مبهرًا للإطار المُقترح مقارنةً بالأساليب الرائدة في المجال، على مختلف المهام. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/LuigiSigillo/ShipinSight.