تجميع التكاليف باستخدام محول سوين رباعي الأبعاد للتحليل التصنيفي القائم على عدد قليل من الأمثلة

تقدم هذه الورقة البحثية شبكة تجميع تكلفة جديدة تُسمى "تجميع حجمي باستخدام المحولات" (Volumetric Aggregation with Transformers - VAT) للتقسيم القائم على عدد قليل من الأمثلة. يُعد استخدام المحولات مفيدًا في تجميع خرائط الترابط من خلال الانتباه الذاتي على مجال استقبال عالمي. ومع ذلك، قد يكون تجزئة خريطة الترابط لمعالجة المحولات ضارًا، نظرًا لانقطاع السياق المحلي عند حدود الرموز، مما يقلل من السياق المحلي القريب من حواف الرموز ويقلل من الانحياز الاستنتاجي. لمعالجة هذه المشكلة، نقترح استخدام محول سوين متعدد الأبعاد (4D Convolutional Swin Transformer)، حيث يسبق المحول عالي الأبعاد سلسلة من التحويلات التلافيفية ذات النوى الصغيرة التي تُضفي سياقًا محليًا على جميع البكسلات وتنقل الانحياز الاستنتاجي التلافيفي. كما نعزز أداء التجميع من خلال تطبيق المحولات ضمن هيكل هرمي، حيث يوجه التجميع على المستوى الأقل تفصيلًا التجميع على المستوى الأدق. ثم يتم تصفية الضوضاء الناتجة عن مخرجات المحولات في المُفكك التالي بمساعدة تضمين مظهر الاستعلام. وباستخدام هذا النموذج، تم تحقيق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) في جميع المعايير القياسية لتقسيم عدد قليل من الأمثلة. كما أظهرت النتائج أن نموذج VAT يحقق أداءً متميزًا في المطابقة الدلالية أيضًا، حيث يلعب تجميع التكلفة دورًا محوريًا.