HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه البصري-النصي المركزي للإجابة على الأسئلة في ميمكس

Li-Jia Li Yannis Kalantidis Junwei Liang and Alexander Hauptmann Lu Jiang Liangliang Cao

الملخص

أُجريت تطورات حديثة في مجال اللغة والرؤية باستخدام الشبكات العصبية، وقد تم تطبيقها بنجاح على مهام الإجابة على الأسئلة البصرية المحدودة بالصورة الواحدة. ومع ذلك، لمعالجة مشكلات الإجابة على الأسئلة الواقعية ضمن مجموعات متعددة الوسائط، مثل المجموعات الشخصية للصور الفوتوغرافية، يتعين علينا النظر إلى المجموعات الكاملة التي تتضمن تسلسلاً من الصور. تقدم هذه الورقة مهمة جديدة تُعرف بـ "MemexQA متعددة الوسائط": بالنظر إلى تسلسل من الصور المستمدة من مستخدم، يكون الهدف هو الإجابة تلقائيًا على الأسئلة التي تساعد المستخدمين على استرجاع ذكرياتهم حول حدث تم التقاطه في هذه الصور. إلى جانب الإجابة النصية، يتم أيضًا توفير عدد قليل من الصور التأكيدية (grounding photos) لتبرير الإجابة، حيث تُعد هذه الصور ضرورية لأنها تساعد المستخدمين على التحقق السريع من صحة الإجابة. ولحل هذه المهمة، نقدم في هذه الورقة: 1) مجموعة بيانات MemexQA، وهي أول مجموعة بيانات متعددة الوسائط للإجابة على الأسئلة مفتوحة المصدر، تتضمن مجموعات حقيقية من الصور الشخصية؛ و2) شبكة قابلة للتدريب من الطرف إلى الطرف، تعتمد على عملية هرمية لتحديد ديناميكيًا نوع الوسائط والزمن المناسب للتركيز عليه في البيانات التسلسلية للإجابة على السؤال. أظهرت النتائج التجريبية على مجموعة بيانات MemexQA أن نموذجنا يتفوق على النماذج الأساسية القوية، ويُنتج صورًا تأكيدية ذات صلة عالية في هذه المهمة الصعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp