منذ 7 أشهر

الملخص

في السنوات الأخيرة، تم استكشاف نمذجة المعلومات النصية أو البصرية باستخدام تمثيلات متجهية مدربة من قواعد بيانات لغوية أو بصرية كبيرة بنجاح. ومع ذلك، تتطلب المهام مثل الإجابة على الأسئلة البصرية دمج هذه التمثيلات المتجهية مع بعضها البعض. تشمل طرق الدمج متعددة الوسائط الضرب العنصري أو الجمع العنصري، بالإضافة إلى ربط التمثيلات البصرية والنصية. نفترض أن هذه الطرق ليست بالتعبيرية مثل ضرب خارجي للمتجهات البصرية والنصية. ومع كون الضرب الخارجي عادةً غير عملي بسبب بعديته العالية، نقترح بدلاً من ذلك استخدام تقنية الدمج ثنائية الأبعاد المتعددة الوسائط والمدمجة (MCB) لدمج الخصائص متعددة الوسائط بشكل فعال وتعبيرى. نقوم بتقييم MCB بشكل مكثف في مهام الإجابة على الأسئلة البصرية وتحديد المواقع. نظهر باستمرار فوائد MCB مقارنة بالتقديرات التي لا تحتوي على MCB. بالنسبة للإجابة على الأسئلة البصرية، نقدم هندسة معمارية تستخدم MCB مرتين: مرة لتنبؤ الانتباه على الخصائص المكانية، ومرة أخرى لدمج التمثيل الذي حظي بالانتباه مع تمثيل السؤال. يتفوق هذا النموذج على أحدث التقنيات في مجموعة بيانات Visual7W وفي تحدي VQA (Visual Question Answering).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري

Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري

Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري

Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1