منذ 7 أشهر

الملخص

الحوار البصري يشمل الإجابة على سلسلة من الأسئلة المستندة إلى صورة، باستخدام تاريخ الحوار كسياق. بالإضافة إلى التحديات الموجودة في الإجابة على الأسئلة البصرية (VQA)، والتي يمكن اعتبارها حوارًا لدورة واحدة، فإن الحوار البصري يشمل تحديات إضافية عديدة. نركز هنا على مشكلة تسمى حل الإشارة البصرية المشتركة التي تتضمن تحديد الكلمات، عادةً العبارات الاسمية والضمائر، التي تشير إلى نفس الكيان/المثال في الصورة. هذا مهم بشكل خاص بالنسبة للضمائر (مثل "إنه")، حيث يجب على وكيل الحوار أولاً ربطه بإشارة مشتركة سابقة (مثل "سفينة")، وبعدها فقط يمكنه الاعتماد على الأساس البصري للإشارة المشتركة "سفينة" للتفكير في الضمير "إنه". العمل السابق (في مجال الحوار البصري) يُعدّل حل الإشارة البصرية المشتركة إما (أ) ضمنيًا عبر شبكة ذاكرة فوق التاريخ، أو (ب) بمستوى خشن لكل السؤال؛ وليس بشكل صريح عند مستوى العبارة. في هذا البحث، نقترح هندسة شبكة وحدات عصبية للحوار البصري من خلال تقديم وحدتين جديدتين - الإشارة وإقصاء - تقومان بحل الإشارة المشتركة الصريحة والمبنية على أساس بصري عند مستوى الكلمة الأكثر دقة. نظهر فعالية نموذجنا على مجموعة بيانات MNIST Dialog، وهي مجموعة بيانات بصرياً بسيطة ولكن معقدة من حيث الإشارات المتقاطعة، من خلال تحقيق دقة قريبة من الكمال، وعلى مجموعة بيانات VisDial، وهي مجموعة بيانات حوار بصري كبيرة ومليئة بالتحديات تحتوي على صور حقيقية، حيث يتفوق نموذجنا على النماذج الأخرى ويكون أكثر قابلية للتفسير وأساسًا وبصرياً متسقًا بشكل نوعي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

حل الترجيع البصري في الحوار البصري باستخدام شبكات الوحدات العصبية

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

حل الترجيع البصري في الحوار البصري باستخدام شبكات الوحدات العصبية

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

حل الترجيع البصري في الحوار البصري باستخدام شبكات الوحدات العصبية

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters