HyperAIHyperAI

Command Palette

Search for a command to run...

BLOCK: الاندماج الثنائي الفرعي لأسئلة الصور وتحديد العلاقات البصرية

Cadene

الملخص

يكتسب التعلم التمثيلي متعدد الوسائط المزيد من الاهتمام داخل مجتمع التعلم العميق. بينما توفر النماذج ثنائية الخطية إطارًا مثيرًا للاهتمام لاكتشاف المزيج الدقيق للوسائط، فإن عدد معلماتها يزداد بشكل تربيعي مع أبعاد المدخلات، مما يجعل تنفيذها العملي ضمن أنابيب العمل التقليدية للتعلم العميق صعبًا. في هذا البحث، نقدم BLOCK، وهو نموذج جديد للدمج متعدد الوسائط يستند إلى تحليل المتجهات الفوق قطرية الكتلية (block-superdiagonal tensor decomposition). يستفيد هذا النموذج من مفهوم الرتب الكتلية (block-term ranks)، الذي يعمم كلًا من مفاهيم الرتبة والمعدلات الرتبية للمتجهات التي تم استخدامها بالفعل في دمج الوسائط المتعددة. يسمح بتحديد طرق جديدة لتحسين التوازن بين قوة التعبير وتعقيد نموذج الدمج، ويمكنه تمثيل التفاعلات الدقيقة جدًا بين الوسائط مع الحفاظ على تمثيلات فعالة للوسائط الأحادية. نثبت القيمة العملية لنموذج الدمج الخاص بنا باستخدام BLOCK في مهمتين صعبتين: الإجابة على الأسئلة البصرية (Visual Question Answering - VQA) وكشف العلاقات البصرية (Visual Relationship Detection - VRD)، حيث نصمم هياكل قابلة للتعلم من البداية إلى النهاية لتمثيل التفاعلات ذات الصلة بين الوسائط. من خلال التجارب الشاملة، نظهر أن BLOCK يتفوق بشكل ملحوظ على أحدث نماذج الدمج متعدد الوسائط لكل من مهمتي VQA و VRD. رمز البرامج الخاص بنا متاح على الرابط: https://github.com/Cadene/block.bootstrap.pytorch.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BLOCK: الاندماج الثنائي الفرعي لأسئلة الصور وتحديد العلاقات البصرية | مستندات | HyperAI