HyperAIHyperAI
منذ 11 أيام

MoVie: إعادة النظر في التحويلات المنظمة للعد البصري وما بعده

Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen
MoVie: إعادة النظر في التحويلات المنظمة للعد البصري وما بعده
الملخص

يتمحور هذا البحث حول التعداد البصري، والذي يهدف إلى التنبؤ بعدد وقائع معينة بناءً على صورة طبيعية واستعلام (مثل سؤال أو فئة). على عكس معظم الدراسات السابقة التي تعتمد على نماذج صريحة رمزية، والتي قد تكون مكلفة من الناحية الحسابية ومحصورة في القدرة على التعميم، نقترح بديلاً بسيطًا وفعالًا من خلال إعادة النظر في التحويلات المُعدّلة التي تدمج الاستعلام والصورة محليًا. مستلهمين من تصميم "العنق المقاوم" (residual bottleneck)، نُسمّي طريقتنا MoVie، وهي اختصار لـ "مُحولات تلافيفية مُعدّلة" (Modulated conVolutional bottlenecks). يُميّز MoVie عن غيرها التفكير الضمني والشامل، وتحتاج فقط إلى عملية واحدة للإدخال أثناء الاستدلال. ومع ذلك، تُظهر MoVie أداءً قويًا في المهمة: 1) تقدّم الحد الأقصى الحالي في مهام التساؤل البصري المخصصة للعد، مع كفاءة أعلى؛ 2) تتفوّق على الأداء السابق في معايير صعبة مثل COCO في مهام عد الكائنات الشائعة؛ 3) ساعدتنا في تحقيق المركز الأول في مسابقة VQA لعام 2020 عند دمجها كوحدة مخصصة للأسئلة المتعلقة بالعدد في النماذج العامة للتساؤل البصري. وأخيرًا، نقدّم أدلة تشير إلى أن التحويلات المُعدّلة، مثل MoVie، يمكن أن تُعدّ آلية عامة لمهام الاستدلال خارج نطاق التعداد.

MoVie: إعادة النظر في التحويلات المنظمة للعد البصري وما بعده | أحدث الأوراق البحثية | HyperAI