التحليل الدلالي الأدنوي والأداء العالي باستخدام المحولات البصرية البسيطة

في أعقاب نموذج الترميز المُقنّع للصورة (MIM)، تم تدريب عدد كبير من نماذج المحوّل البصري (ViT) البسيطة وغير الهرمية باستخدام مجموعات بيانات واسعة النطاق، مما يُقدّم نماذجًا جديدة وفرصًا كبيرة للفصل الشكلي. تُدمج النظم الحالية الأفضل في مجالها العديد من التحيّزات الاستدلالية وتستخدم مشفرات معقدة. بالاعتماد على الدوافع الأصلية للنماذج البسيطة من ViT، التي تتمثل في البساطة والعمومية، نستكشف أنظمة عالية الأداء من نوع "الحد الأدنى" لتحقيق هذا الهدف. يكمن هدفنا الرئيسي في توفير قواعد بسيطة وفعّالة للفصل الشكلي العملي باستخدام نماذج ViT البسيطة. وبشكل خاص، نستعرض إمكانية وطرائق تحقيق فصل شكلي عالي الأداء باستخدام خريطة الميزات الأخيرة. ونتيجة لذلك، نقدّم نموذج PlainSeg، الذي يتكون فقط من ثلاث طبقات تصفية 3×3 بالإضافة إلى طبقات المحول (سواء كانت مشفرة أو فك مشفرة). خلال هذه العملية، نقدّم رؤى حول مبدأين أساسيين: (أ) إن ميزات الدقة العالية حاسمة لأداء عالي، رغم استخدام تقنيات بسيطة لترقية الدقة؛ و(ب) يتطلب المحول الفكّ الضعيف معدل تعلم أعلى بكثير من المحول الفكّ الواسع. بناءً على ذلك، نقدّم أيضًا نموذج PlainSeg-Hier، الذي يسمح باستخدام ميزات هرمية. أظهرت التجارب الواسعة على أربع معايير شهيرة أداءً عاليًا وكفاءةً متميزة لطرقنا، كما يمكن أن تُستخدم كأدوات قوية لتقييم قدرة النماذج الأساسية على الانتقال في مهام الفصل الشكلي. يتوفر الكود على الرابط: \url{https://github.com/ydhongHIT/PlainSeg}.