HyperAIHyperAI
منذ 17 أيام

تحسين التوصيفات الصورية والإجابة على الأسئلة البصرية من خلال اقتراح مربعات منفصلة وتقسيم ميزات باستخدام تسميات دلالية ذات حجم تفصيلي دقيق للغاية

Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut
تحسين التوصيفات الصورية والإجابة على الأسئلة البصرية من خلال اقتراح مربعات منفصلة وتقسيم ميزات باستخدام تسميات دلالية ذات حجم تفصيلي دقيق للغاية
الملخص

تُعد كشف الكائنات عنصراً مهماً في الحلول الحالية للمهام المتعلقة بالرؤية واللغة، مثل وصف الصور والإجابة على الأسئلة البصرية. ومع ذلك، تعتمد النماذج الشائعة مثل Faster R-CNN على عملية مكلفة تتمثل في تسمية الحقائق الأساسية (ground-truth) لكل من مربعات الحدود (bounding boxes) وملصقاتها الدلالية (semantic labels)، مما يجعلها أقل ملائمة كمهمة أولية لنقل التعلم (transfer learning). في هذا البحث، ندرس تأثير فصل اقتراح المربعات عن التمثيل المميز (featurization) من أجل المهام اللاحقة (down-stream tasks). والرؤيا الأساسية هنا هي أن هذا الفصل يسمح لنا باستغلال كميات كبيرة من التسميات المُعلَّمة التي كانت غير متاحة سابقاً في معايير كشف الكائنات القياسية. ونتيجة للتجارب العملية، نُظهر أن هذا النهج يؤدي إلى تحسين فعالية نقل التعلم، مما يُحدث تحسّناً في نماذج وصف الصور والإجابة على الأسئلة البصرية، حسبما يقاس على معايير عامة متاحة للجمهور.