HyperAIHyperAI

Command Palette

Search for a command to run...

حل الترجيع البصري في الحوار البصري باستخدام شبكات الوحدات العصبية

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

الحوار البصري يشمل الإجابة على سلسلة من الأسئلة المستندة إلى صورة، باستخدام تاريخ الحوار كسياق. بالإضافة إلى التحديات الموجودة في الإجابة على الأسئلة البصرية (VQA)، والتي يمكن اعتبارها حوارًا لدورة واحدة، فإن الحوار البصري يشمل تحديات إضافية عديدة. نركز هنا على مشكلة تسمى حل الإشارة البصرية المشتركة التي تتضمن تحديد الكلمات، عادةً العبارات الاسمية والضمائر، التي تشير إلى نفس الكيان/المثال في الصورة. هذا مهم بشكل خاص بالنسبة للضمائر (مثل "إنه")، حيث يجب على وكيل الحوار أولاً ربطه بإشارة مشتركة سابقة (مثل "سفينة")، وبعدها فقط يمكنه الاعتماد على الأساس البصري للإشارة المشتركة "سفينة" للتفكير في الضمير "إنه". العمل السابق (في مجال الحوار البصري) يُعدّل حل الإشارة البصرية المشتركة إما (أ) ضمنيًا عبر شبكة ذاكرة فوق التاريخ، أو (ب) بمستوى خشن لكل السؤال؛ وليس بشكل صريح عند مستوى العبارة. في هذا البحث، نقترح هندسة شبكة وحدات عصبية للحوار البصري من خلال تقديم وحدتين جديدتين - الإشارة وإقصاء - تقومان بحل الإشارة المشتركة الصريحة والمبنية على أساس بصري عند مستوى الكلمة الأكثر دقة. نظهر فعالية نموذجنا على مجموعة بيانات MNIST Dialog، وهي مجموعة بيانات بصرياً بسيطة ولكن معقدة من حيث الإشارات المتقاطعة، من خلال تحقيق دقة قريبة من الكمال، وعلى مجموعة بيانات VisDial، وهي مجموعة بيانات حوار بصري كبيرة ومليئة بالتحديات تحتوي على صور حقيقية، حيث يتفوق نموذجنا على النماذج الأخرى ويكون أكثر قابلية للتفسير وأساسًا وبصرياً متسقًا بشكل نوعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp