حل الترجيع البصري في الحوار البصري باستخدام شبكات الوحدات العصبية

الحوار البصري يشمل الإجابة على سلسلة من الأسئلة المستندة إلى صورة، باستخدام تاريخ الحوار كسياق. بالإضافة إلى التحديات الموجودة في الإجابة على الأسئلة البصرية (VQA)، والتي يمكن اعتبارها حوارًا لدورة واحدة، فإن الحوار البصري يشمل تحديات إضافية عديدة. نركز هنا على مشكلة تسمى حل الإشارة البصرية المشتركة التي تتضمن تحديد الكلمات، عادةً العبارات الاسمية والضمائر، التي تشير إلى نفس الكيان/المثال في الصورة. هذا مهم بشكل خاص بالنسبة للضمائر (مثل "إنه")، حيث يجب على وكيل الحوار أولاً ربطه بإشارة مشتركة سابقة (مثل "سفينة")، وبعدها فقط يمكنه الاعتماد على الأساس البصري للإشارة المشتركة "سفينة" للتفكير في الضمير "إنه". العمل السابق (في مجال الحوار البصري) يُعدّل حل الإشارة البصرية المشتركة إما (أ) ضمنيًا عبر شبكة ذاكرة فوق التاريخ، أو (ب) بمستوى خشن لكل السؤال؛ وليس بشكل صريح عند مستوى العبارة. في هذا البحث، نقترح هندسة شبكة وحدات عصبية للحوار البصري من خلال تقديم وحدتين جديدتين - الإشارة وإقصاء - تقومان بحل الإشارة المشتركة الصريحة والمبنية على أساس بصري عند مستوى الكلمة الأكثر دقة. نظهر فعالية نموذجنا على مجموعة بيانات MNIST Dialog، وهي مجموعة بيانات بصرياً بسيطة ولكن معقدة من حيث الإشارات المتقاطعة، من خلال تحقيق دقة قريبة من الكمال، وعلى مجموعة بيانات VisDial، وهي مجموعة بيانات حوار بصري كبيرة ومليئة بالتحديات تحتوي على صور حقيقية، حيث يتفوق نموذجنا على النماذج الأخرى ويكون أكثر قابلية للتفسير وأساسًا وبصرياً متسقًا بشكل نوعي.