Command Palette
Search for a command to run...
CLEVR-Ref+: تشخيص الاستدلال البصري باستخدام التعبيرات الإشارة
CLEVR-Ref+: تشخيص الاستدلال البصري باستخدام التعبيرات الإشارة
Runtao Liu; Chenxi Liu; Yutong Bai; Alan Yuille
الملخص
الكشف عن الأشياء المرجعية والتقسيم المرئي للصور هي مهمتان مهمتان تتطلبان فهمًا مشتركًا للمعلومات البصرية واللغة الطبيعية. ومع ذلك، هناك أدلة على أن مجموعات البيانات القياسية الحالية تعاني من التحيز، وأن النماذج الرائدة حاليًا لا يمكن تقييمها بسهولة على عملية الاستدلال الوسيطة. لمعالجة هذه القضايا وإكمال الجهود المماثلة في إجابة الأسئلة المرئية، قمنا بإنشاء CLEVR-Ref+، وهي مجموعة بيانات تشخيصية مصنعة لفهم التعبيرات المرجعية. تكون مواقع وأ�性 الأشياء بدقة متاحة، وتربط التعبيرات المرجعية تلقائيًا بالبرامج الوظيفية. الطبيعة المصنعة تسمح بالتحكم في تحيز مجموعة البيانات (من خلال استراتيجية العينة)، والبرامج الوحدوية تمكّن من الحصول على حقيقة الاستدلال الوسيط دون الحاجة إلى مصححين بشريين.بالإضافة إلى تقييم عدة نماذج رائدة على CLEVR-Ref+، نقترح أيضًا IEP-Ref، وهو نهج شبكة وحدوي يتفوق بشكل كبير على النماذج الأخرى في مجموعتنا البيانات. وبشكل خاص، نقدم نتائجين مثيرتين ومهمتين باستخدام IEP-Ref: (1) يمكن ربط الوحدة التي تم تدريبها لتحويل الخرائط الميزات إلى أقنعة تقسيم مع أي وحدة وسيطة كشف خطوات عملية الاستدلال بأكملها خطوة بخطوة؛ (2) حتى إذا كان جميع بيانات التدريب تحتوي على شيء واحد على الأقل يتم الإشارة إليه، يمكن لـ IEP-Ref التنبؤ بشكل صحيح بعدم وجود مقدمة عندما يتم تقديم تعبيرات مرجعية خاطئة. حسب علمنا، هذا هو أول دليل مباشر وكمي على أن الوحدات العصبية تعمل بالطريقة المقصودة منها.