VDDT: تحسين كشف السفن باستخدام محول مرن
تمت ملاحظة اهتمام واسع بكشف السفن في مجال كشف الكائنات، وقد أدى النموذج المُقترح حديثًا DETR إلى تحقيق كشف كائنات من الطرف إلى الطرف (end-to-end) بنجاح، كما أظهر أداءً جيدًا. ومع ذلك، فإن DETR ليس حساسًا بشكل كافٍ للكشف عن الكائنات الصغيرة، مما يؤدي إلى أداء غير راضٍ في مهام كشف السفن. في هذا البحث، نستخدم Deformable DETR كنموذج أساسي ونقوم بتعديله فوق هذا الأساس. أولاً، نضيف معلومات عن نقاط المرجع إلى استفسارات الكائنات لجعل الميزات التي تتعلمها استفسارات الكائنات أكثر غنىً، بهدف تحسين أداء الكاشف. ثانيًا، نستخدم شبكة متعددة الطبقات (multi-layer perceptron) بدلًا من الانتباه الذاتي متعدد الرؤوس (multi-head self-attention) لتقليل الجهد الحسابي في المُفكك (decoder). بالإضافة إلى ذلك، قمنا بجمع 85 فيديو تم تسميتها بـ 4563 صورة، واستخدمنا هذه الصور لبناء مجموعة بيانات مخصصة للكشف عن السفن. تُظهر النتائج التجريبية على مجموعة بيانات السفن لدينا أن نموذج VDDT يتفوق على النموذج الأساسي.