HyperAIHyperAI
منذ 11 أيام

الاقتران المُقنَّع المُوزَّع المُؤَثَّر بالانتباه المتقاطع بين الاستعلام والدعم الكثيف للتصنيف القليل النموذج

Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng
الاقتران المُقنَّع المُوزَّع المُؤَثَّر بالانتباه المتقاطع بين الاستعلام والدعم الكثيف للتصنيف القليل النموذج
الملخص

أظهرت الأبحاث المتعلقة بالتقسيم الدلالي القائم على عدد قليل من الأمثلة (FSS) اهتمامًا كبيرًا، حيث يهدف هذا المجال إلى تقسيم الكائنات المستهدفة في صورة استعلام، باستخدام عدد قليل جدًا من الصور الداعمة المُعلَّمة للفئة المستهدفة. يكمن أحد العوامل الأساسية في هذا التحدي في الاستفادة الكاملة من المعلومات الواردة في الصور الداعمة من خلال استغلال العلاقات الدقيقة بين الصور الاستعلامية والصور الداعمة. ومع ذلك، فإن معظم النماذج الحالية إما تُكثف المعلومات الداعمة إلى عدد محدود من النماذج الفئوية، أو تستخدم جزءًا فقط من المعلومات الداعمة (مثل الخلفية فقط أو المقدمة فقط) على مستوى البكسل، مما يؤدي إلى فقدان ملحوظ للمعلومات. في هذا البحث، نقترح نموذجًا يُسمى DCAMA (تجميع الأقنعة الموزونة بالانتباه المتبادل بين الاستعلام والدعم على مستوى البكسل بكثافة)، حيث يتم استغلال المعلومات الداعمة للمقدمة والخلفية بالكامل من خلال العلاقات متعددة المستويات على مستوى البكسل بين الميزات المزدوجة للصور الاستعلامية والداعمة. تم تنفيذ DCAMA باستخدام انتباه المنتج النقطي المُدرَّج في بنية المُحَوِّل (Transformer)، حيث يُعامل كل بكسل في الصورة الاستعلامية كـ "رمز" (Token)، ويُحسب تشابهه مع جميع البكسلات في الصور الداعمة، ثم يُحدَّد التصنيف المُتوقَّع للبكسل كمُجموع جمعي لتصنيفات جميع البكسلات الداعمة — مع ترجيحها بحسب درجة التشابه. وباستنادًا إلى الصيغة الفريدة لنموذج DCAMA، نقترح أيضًا خوارزمية استدلال فعّالة وسريعة لتقسيم n-shot، حيث يتم جمع بكسلات جميع الصور الداعمة دفعة واحدة لإجراء تجميع الأقنعة. أظهرت التجارب تقدمًا ملحوظًا في مستوى الأداء على معايير FSS القياسية مثل PASCAL-5i وCOCO-20i وFSS-1000، حيث حقق نموذجنا تحسينات مطلقة قدرها 3.1% و9.7% و3.6% على مؤشر mIoU في الحالة 1-shot مقارنة بأفضل النتائج السابقة. كما أثبتت الدراسات التحليلية (التجريبية) صحة التصميم المُعتمَد في DCAMA.

الاقتران المُقنَّع المُوزَّع المُؤَثَّر بالانتباه المتقاطع بين الاستعلام والدعم الكثيف للتصنيف القليل النموذج | أحدث الأوراق البحثية | HyperAI