HyperAIHyperAI

Command Palette

Search for a command to run...

KVL-BERT: BERT مُعزَّز بالمعارف للسياق البصري واللغوي للاستدلال السياقي البصري

Dandan Song Siyi Ma Zhanchen Sun Sicheng Yang Lejian Liao

الملخص

الاستنتاج يُعدّ قدرة حاسمة نحو الفهم البصري الشامل. ولتطوير آلات تمتلك قدرات فهم بصري وتحليلي على مستوى الإدراك، تم تقديم مهمة الاستنتاج البصري المشترك (VCR). في هذه المهمة، عند طرح سؤال معقد حول صورة معينة، يجب على الآلة الإجابة بشكل صحيح ثم تقديم تبرير يُفسّر سبب الإجابة. وقد أظهرت الأساليب التي تعتمد نموذج BERT القوي كعمود فقري لتعلم التمثيل المشترك بين محتوى الصورة واللغة الطبيعية تحسينات واعدة في أداء مهمة VCR. ومع ذلك، لم تُستخدم أي من الطرق الحالية المعرفة المشتركة في الاستنتاج البصري المشترك، وهو ما نؤمن بأنه سيكون مفيدًا جدًا في هذه المهمة. وباستخدام الدعم من المعرفة المشتركة، يمكن الإجابة على أسئلة معقدة حتى عندما لا تكون المعلومات المطلوبة موضحة في الصورة، وذلك من خلال التفكير المعرفي. لذلك، قمنا بدمج المعرفة المشتركة في نموذج BERT عبر الوسائط، واقترحنا نموذجًا جديدًا يُسمّى BERT المُعزّز بالمعرفة البصرية واللغوية (KVL-BERT اختصارًا). علاوةً على إدخال محتوى بصري ولغوي كمدخلات، تم دمج المعرفة المشتركة الخارجية المستخرجة من مصادر مثل ConceptNet داخل طبقات متعددة من نموذج Transformer. ولضمان الحفاظ على المعلومات الهيكلية والتمثيل الدلالي للجملة الأصلية، اقترحنا استخدام تضمين الموضع النسبي (relative position embedding) وتقنيات الانتباه المُقنّع ذاتيًا (mask-self-attention) لتقليل التأثير بين المعرفة المشتركة المُدمجة والمكونات غير المرتبطة الأخرى في التسلسل المدخل. مقارنةً بالنماذج المخصصة للمهام والأنماط العامة للتدريب المسبق غير المخصصة للمهام، يتفوّق نموذج KVL-BERT بشكل كبير على النماذج الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp