الغوص في التحفيز متعدد الوسائط للتصنيف البصري الدقيق

يُعد تصنيف الرؤية الدقيق (FGVC) عملية تصنيف التفرعات الدقيقة ضمن فئة عامة، وهي تواجه تحديات بسبب الفروقات الدقيقة بين الفئات والتنوع الكبير داخل الفئة الواحدة. ومع ذلك، تركز الطرق السائدة بشكل رئيسي على المفاهيم البصرية أحادية النمط. وقد أظهرت التطورات الحديثة في نماذج الرؤية واللغة المُدرّبة مسبقًا أداءً متميزًا في مهام الرؤية عالية المستوى، إلا أن مدى قابلية تطبيق هذه النماذج على مهام FGVC ما زال غير مؤكد. في هذا البحث، نهدف إلى استغلال الإمكانات الكاملة للوصف عبر الوسائط المختلفة لمواجهة مهام FGVC، ونُقدّم حلًا جديدًا يعتمد على التحفيز متعدد الوسائط، يُشار إليه بـ MP-FGVC، مبنيًا على نموذج التوافق بين اللغة والصورة المُدرّب مسبقًا (CLIP). يتكون MP-FGVC من مخطط تحفيز متعدد الوسائط ومخطط تكييف متعدد الوسائط. يشمل المخطط الأول تحفيزًا بصريًا مخصصًا للتصنيف الفرعي (SsVP) وتحفيزًا نصيًا واعيًا بالاختلافات (DaTP)، اللذان يبرزان بشكل صريح الفروق المميزة لكل تصنيف فرعي من منظورين: البصري واللغوي. أما المخطط الثاني، فيتم من خلاله محاذاة عناصر التحفيز البصري والنصي في فضاء معنوي مشترك، مما يُمكّن من التفكير التكاملي عبر الوسائط من خلال وحدة دمج الرؤية واللغة (VLFM)، ما يُسهم في تحسين أداء FGVC بشكل أكبر. علاوةً على ذلك، نُعدّل استراتيجية تحسين مكونة من مرحلتين لـ MP-FGVC، بهدف استغلال أقصى إمكانات النموذج CLIP المُدرّب مسبقًا، وتسريع عملية التكييف الفعّالة لمهام FGVC. أظهرت التجارب الواسعة التي أُجريت على أربع مجموعات بيانات لـ FGVC فعالية نموذجنا MP-FGVC.