HyperAIHyperAI
منذ 2 أشهر

BLOCK: الاندماج الثنائي الفرعي لأسئلة الصور وتحديد العلاقات البصرية

Hedi Ben-younes; Rémi Cadene; Nicolas Thome; Matthieu Cord
BLOCK: الاندماج الثنائي الفرعي لأسئلة الصور وتحديد العلاقات البصرية
الملخص

يكتسب التعلم التمثيلي متعدد الوسائط المزيد من الاهتمام داخل مجتمع التعلم العميق. بينما توفر النماذج ثنائية الخطية إطارًا مثيرًا للاهتمام لاكتشاف المزيج الدقيق للوسائط، فإن عدد معلماتها يزداد بشكل تربيعي مع أبعاد المدخلات، مما يجعل تنفيذها العملي ضمن أنابيب العمل التقليدية للتعلم العميق صعبًا. في هذا البحث، نقدم BLOCK، وهو نموذج جديد للدمج متعدد الوسائط يستند إلى تحليل المتجهات الفوق قطرية الكتلية (block-superdiagonal tensor decomposition). يستفيد هذا النموذج من مفهوم الرتب الكتلية (block-term ranks)، الذي يعمم كلًا من مفاهيم الرتبة والمعدلات الرتبية للمتجهات التي تم استخدامها بالفعل في دمج الوسائط المتعددة. يسمح بتحديد طرق جديدة لتحسين التوازن بين قوة التعبير وتعقيد نموذج الدمج، ويمكنه تمثيل التفاعلات الدقيقة جدًا بين الوسائط مع الحفاظ على تمثيلات فعالة للوسائط الأحادية. نثبت القيمة العملية لنموذج الدمج الخاص بنا باستخدام BLOCK في مهمتين صعبتين: الإجابة على الأسئلة البصرية (Visual Question Answering - VQA) وكشف العلاقات البصرية (Visual Relationship Detection - VRD)، حيث نصمم هياكل قابلة للتعلم من البداية إلى النهاية لتمثيل التفاعلات ذات الصلة بين الوسائط. من خلال التجارب الشاملة، نظهر أن BLOCK يتفوق بشكل ملحوظ على أحدث نماذج الدمج متعدد الوسائط لكل من مهمتي VQA و VRD. رمز البرامج الخاص بنا متاح على الرابط: https://github.com/Cadene/block.bootstrap.pytorch.

BLOCK: الاندماج الثنائي الفرعي لأسئلة الصور وتحديد العلاقات البصرية | أحدث الأوراق البحثية | HyperAI