أقوى، وأقل، وأفضل: استغلال نماذج الأساس البصرية للانقسام الدلالي العام للنطاق

في هذه الورقة، نقوم أولاً بتقييم واستغلال نماذج الرؤية الأساسية (VFMs) المتنوعة في سياق التجزئة الدلالية العامة للمجال (DGSS). مدفوعين بالدافع القائل بأن الاستفادة من نماذج مُدرّبة مسبقًا قوية وبأقل عدد من المعاملات القابلة للضبط يُسهم في تحسين القدرة على التعميم، نقدم منهجية مُعدّلة قوية تُسمى Rein، والتي تُستخدم لاستغلال نماذج الرؤية الأساسية بكفاءة من حيث عدد المعاملات في مهام التجزئة الدلالية العامة للمجال. تعتمد Rein على مجموعة من الرموز القابلة للضبط، كل منها مرتبطة بInstances مختلفة، حيث تقوم بدقة بتحسين خرائط الميزات من كل طبقة وإرسالها إلى الطبقة التالية داخل الهيكل الأساسي. يؤدي هذا الإجراء إلى إنتاج تحسينات متنوعة لفئات مختلفة ضمن صورة واحدة. وبفضل عدد محدود من المعاملات القابلة للضبط، تُعدّ Rein فعّالة في التخصيص الدقيق لنماذج الرؤية الأساسية لمهام DGSS، وتفوق بشكل مفاجئ التخصيص الكامل لجميع المعاملات. تُظهر التجارب الواسعة في مختلف البيئات أن Rein تتفوق بشكل كبير على أحدث الطرق المطروحة. وبشكل ملحوظ، وبإضافة فقط 1% إضافية من المعاملات القابلة للضبط داخل الهيكل الأساسي المُجمّد، تحقق Rein مقياس mIoU قدره 78.4% على مجموعة بيانات Cityscapes، دون الحاجة إلى الوصول إلى أي مجموعات بيانات حقيقية لمشاهد حضرية. يمكن الوصول إلى الكود عبر الرابط: https://github.com/w1oves/Rein.git.