الدمج المتكامل لمحولات التشفير-الفك المُدرَّبة مسبقًا للكشف عن الكائنات البصرية

لقد استفادت كاشفات الكائنات الحديثة من مزايا الشبكات الأساسية (backbone networks) التي تم تدريبها مسبقًا على مجموعات بيانات ضخمة. ومع ذلك، تظل المكونات الأخرى، مثل رأس الكاشف (detector head) وشبكة الهرم المميز (Feature Pyramid Network - FPN)، مُدرَّبة من الصفر، مما يحد من الاستفادة الكاملة من الإمكانات المتوفرة في نماذج التمثيل. في هذه الدراسة، نقترح نقلًا متكاملًا لمحولات التشفير-فك التشفير المُدرَّبة مسبقًا (imTED) إلى الكاشف، بهدف إنشاء مسار استخراج الميزات الذي يكون "مُدرَّبًا مسبقًا بالكامل"، مما يُعزز قدرة الكاشف على التعميم إلى أقصى حد. تكمن الفروقات الأساسية بين imTED والكاشف الأساسي في جوانب متعددة: (1) نقل المحول التشفير-فك التشفير المُدرَّب مسبقًا إلى رأس الكاشف، مع إزالة شبكة FPN التي تم تهيئتها عشوائيًا من مسار استخراج الميزات؛ و(2) تعريف وحدة منظِّم الميزات متعددة المقاييس (Multi-scale Feature Modulator - MFM) لتعزيز التكيف مع المقاييس المختلفة. تُقلل هذه التصاميم بشكل كبير من عدد المعاملات المُهيأة عشوائيًا، كما تُوحِّد تدريب الكاشف مع تعلم التمثيل بشكل متعمد. أظهرت التجارب على مجموعة بيانات كشف الكائنات MS COCO أن imTED تتفوّق باستمرار على نماذجها المُماثلة بنسبة تصل إلى 2.4 نقطة في مقياس AP. وبلا إضافات مُضافة (bells and whistles)، تُحسِّن imTED أداء أحدث التقنيات في كشف الكائنات بعينة قليلة (few-shot object detection) بنسبة تصل إلى 7.6 نقطة AP. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/LiewFeng/imTED.