HyperAIHyperAI

Command Palette

Search for a command to run...

الغوص في التحفيز متعدد الوسائط للتصنيف البصري الدقيق

Xin Jiang Hao Tang Junyao Gao Xiaoyu Du Shengfeng He Zechao Li

الملخص

يُعد تصنيف الرؤية الدقيق (FGVC) عملية تصنيف التفرعات الدقيقة ضمن فئة عامة، وهي تواجه تحديات بسبب الفروقات الدقيقة بين الفئات والتنوع الكبير داخل الفئة الواحدة. ومع ذلك، تركز الطرق السائدة بشكل رئيسي على المفاهيم البصرية أحادية النمط. وقد أظهرت التطورات الحديثة في نماذج الرؤية واللغة المُدرّبة مسبقًا أداءً متميزًا في مهام الرؤية عالية المستوى، إلا أن مدى قابلية تطبيق هذه النماذج على مهام FGVC ما زال غير مؤكد. في هذا البحث، نهدف إلى استغلال الإمكانات الكاملة للوصف عبر الوسائط المختلفة لمواجهة مهام FGVC، ونُقدّم حلًا جديدًا يعتمد على التحفيز متعدد الوسائط، يُشار إليه بـ MP-FGVC، مبنيًا على نموذج التوافق بين اللغة والصورة المُدرّب مسبقًا (CLIP). يتكون MP-FGVC من مخطط تحفيز متعدد الوسائط ومخطط تكييف متعدد الوسائط. يشمل المخطط الأول تحفيزًا بصريًا مخصصًا للتصنيف الفرعي (SsVP) وتحفيزًا نصيًا واعيًا بالاختلافات (DaTP)، اللذان يبرزان بشكل صريح الفروق المميزة لكل تصنيف فرعي من منظورين: البصري واللغوي. أما المخطط الثاني، فيتم من خلاله محاذاة عناصر التحفيز البصري والنصي في فضاء معنوي مشترك، مما يُمكّن من التفكير التكاملي عبر الوسائط من خلال وحدة دمج الرؤية واللغة (VLFM)، ما يُسهم في تحسين أداء FGVC بشكل أكبر. علاوةً على ذلك، نُعدّل استراتيجية تحسين مكونة من مرحلتين لـ MP-FGVC، بهدف استغلال أقصى إمكانات النموذج CLIP المُدرّب مسبقًا، وتسريع عملية التكييف الفعّالة لمهام FGVC. أظهرت التجارب الواسعة التي أُجريت على أربع مجموعات بيانات لـ FGVC فعالية نموذجنا MP-FGVC.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الغوص في التحفيز متعدد الوسائط للتصنيف البصري الدقيق | مستندات | HyperAI