HyperAIHyperAI
منذ 2 أشهر

التصويب المكاني الضمني للكائنات عبر المحول مع الإشراف الضعيف

Haotian Bai; Ruimao Zhang; Jiong Wang; Xiang Wan
التصويب المكاني الضمني للكائنات عبر المحول مع الإشراف الضعيف
الملخص

التصحيح المكاني لتحديد مواقع الأشياء برقابة ضعيفة (WSOL)، والذي يهدف إلى تحديد مواقع الأشياء باستخدام تسميات صورية فقط، جذب اهتمامًا كبيرًا بسبب انخفاض تكلفة التسمية في التطبيقات الحقيقية. استغلت الدراسات الحديثة ميزة الانتباه الذاتي في محول الفيديو (Visual Transformer) للارتباطات طويلة المدى لإعادة تنشيط المناطق الدلالية، بهدف تجنب التنشيط الجزئي في الخرائط التفعيلية التقليدية للصنف (Class Activation Mapping - CAM). ومع ذلك، فإن النمذجة طويلة المدى في المحول (Transformer) تتجاهل التجانس المكاني الداخلي للأشياء، وغالبًا ما تتسبب في انتشار المناطق الدلالية بعيدًا عن حدود الجسم، مما يجعل نتائج التحديد أكبر بكثير أو أصغر بكثير. لحل هذه المشكلة، نقدم وحدة تصحيح مكاني بسيطة ولكنها فعالة (Spatial Calibration Module - SCM) للـ WSOL الدقيق، حيث يتم دمج التشابهات الدلالية لأوسمة الباث (patch tokens) والعلاقات المكانية الخاصة بهم في نموذج انتشار موحد. بشكل خاص، نقوم بتقديم معلمة قابلة للتعلم لضبط الديناميكي للارتباطات الدلالية وشدة السياق المكاني لنشر المعلومات بشكل فعال. في التطبيق العملي، يتم تصميم الوحدة SCM كوحدة خارجية للمحوّل (Transformer)، ويمكن إزالتها أثناء الاستدلال لتقليل تكلفة الحساب. يتم غرس قدرة تحديد الموقع الحساس للأجسام ضمن محول الفيديو من خلال الأمثلة في مرحلة التدريب. هذا يتيح للخرائط الانتباهية المتولدة التقاط حدود الأجسام بشكل أكثر حدة وتصفية المنطقة الخلفية غير ذات الصلة بالجسم. تثبت النتائج التجريبية الواسعة فعالية الطريقة المقترحة، والتي تتفوق بشكل كبير على طريقة TS-CAM المناظرة لها على مقاييس CUB-200 و ImageNet-1K. يمكن الوصول إلى الكود عبر الرابط: https://github.com/164140757/SCM.

التصويب المكاني الضمني للكائنات عبر المحول مع الإشراف الضعيف | أحدث الأوراق البحثية | HyperAI