HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

الانتباه البصري-النصي المركزي للإجابة على الأسئلة في ميمكس

{Li-Jia Li Yannis Kalantidis Junwei Liang and Alexander Hauptmann Lu Jiang Liangliang Cao}

الملخص

أُجريت تطورات حديثة في مجال اللغة والرؤية باستخدام الشبكات العصبية، وقد تم تطبيقها بنجاح على مهام الإجابة على الأسئلة البصرية المحدودة بالصورة الواحدة. ومع ذلك، لمعالجة مشكلات الإجابة على الأسئلة الواقعية ضمن مجموعات متعددة الوسائط، مثل المجموعات الشخصية للصور الفوتوغرافية، يتعين علينا النظر إلى المجموعات الكاملة التي تتضمن تسلسلاً من الصور. تقدم هذه الورقة مهمة جديدة تُعرف بـ "MemexQA متعددة الوسائط": بالنظر إلى تسلسل من الصور المستمدة من مستخدم، يكون الهدف هو الإجابة تلقائيًا على الأسئلة التي تساعد المستخدمين على استرجاع ذكرياتهم حول حدث تم التقاطه في هذه الصور. إلى جانب الإجابة النصية، يتم أيضًا توفير عدد قليل من الصور التأكيدية (grounding photos) لتبرير الإجابة، حيث تُعد هذه الصور ضرورية لأنها تساعد المستخدمين على التحقق السريع من صحة الإجابة. ولحل هذه المهمة، نقدم في هذه الورقة: 1) مجموعة بيانات MemexQA، وهي أول مجموعة بيانات متعددة الوسائط للإجابة على الأسئلة مفتوحة المصدر، تتضمن مجموعات حقيقية من الصور الشخصية؛ و2) شبكة قابلة للتدريب من الطرف إلى الطرف، تعتمد على عملية هرمية لتحديد ديناميكيًا نوع الوسائط والزمن المناسب للتركيز عليه في البيانات التسلسلية للإجابة على السؤال. أظهرت النتائج التجريبية على مجموعة بيانات MemexQA أن نموذجنا يتفوق على النماذج الأساسية القوية، ويُنتج صورًا تأكيدية ذات صلة عالية في هذه المهمة الصعبة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
memex-question-answering-on-memexqaFVTA
Accuracy: 0.357

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانتباه البصري-النصي المركزي للإجابة على الأسئلة في ميمكس | الأوراق البحثية | HyperAI