TransIFC: تعلم تركيز الميزات الواعية بالدوال الثابتة للتصنيف الفعال للصور الدقيقة للطيور
تصنيف صور الطيور بدقة عالية (FBIC) ليس فقط ذا أهمية كبيرة في مراقبة وحماية الطيور المهددة بالانقراض، بل يُعد أيضًا مهمة شائعة في تصنيف الصور ضمن معالجة الوسائط المتعددة والرؤية الحاسوبية. ومع ذلك، يعاني تصنيف صور الطيور بدقة عالية من عدة تحديات، مثل تجديد الريش، والخلفيات المعقدة، والوضعيات العشوائية للطيور. لمعالجة هذه التحديات بشكل فعّال، نقدم نموذجًا جديدًا يُدعى "مُحول تركيز الميزات المُدركة للعوامل الثابتة" (TransIFC)، الذي يتعلم المعلومات الثابتة والجوهرية في صور الطيور. لتحقيق ذلك، نُقدّم وحدتين جديدتين تستفيدان من خصائص صور الطيور، وهما: وحدة تجميع الميزات حسب المراحل الهرمية (HSFA) ووحدة استخلاص الميزات من الميزات (FFA). تُجمّع وحدة HSFA المعلومات متعددة المقاييس في صور الطيور من خلال دمج ميزات متعددة الطبقات. أما وحدة FFA، فهي تستخرج الميزات الثابتة للطيور من خلال اختيار الميزات بناءً على درجات التمييز. وتم استخدام مُحول (Transformer) كهيكل أساسي للكشف عن العلاقات الدلالية طويلة الاعتماد في صور الطيور. بالإضافة إلى ذلك، قُدمت توضيحات بصرية وفيرة لإثبات قابلية تفسير وحدتي HSFA وFFA داخل نموذج TransIFC. أظهرت التجارب الشاملة أن نموذج TransIFC يمكنه تحقيق أداءً رائدًا على مجموعة بيانات CUB-200-2011 (بنسبة 91.0٪) وعلى مجموعة بيانات NABirds (بنسبة 90.9٪). وأخيرًا، أُجريت تجارب ممتدة على مجموعة بيانات Stanford Cars لتوضيح الإمكانات المحتملة لتوسيع نطاق طريقة العمل هذه على مهام تصنيف بصري بدقة عالية أخرى.