HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-ViL: تمثيلات متعددة الحواس مُعززة بالمعرفة من خلال رسم بياني للمشهد

Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang

الملخص

نُقدّم نهجًا مُعزّزًا بالمعرفة يُدعى ERNIE-ViL، والذي يدمج المعرفة الهيكلية المستمدة من رسومات المشهد لتعلم تمثيلات مشتركة بين الرؤية واللغة. يسعى ERNIE-ViL إلى إقامة ارتباطات معنوية مفصلة (الكائنات، وصفات الكائنات، والعلاقات بين الكائنات) بين الرؤية واللغة، وهي عناصر ضرورية للمهام المتعددة الوسائط المرتبطة بالرؤية واللغة. باستخدام رسومات المشهد الخاصة بالمشاهد البصرية، يقوم ERNIE-ViL ببناء مهام توقع رسم المشهد، أي مهام توقع الكائن، وتصفية الصفة، وربط العلاقات، خلال مرحلة التدريب المسبق. وبشكل خاص، تُنفَّذ هذه المهام من خلال التنبؤ بعُقد من أنواع مختلفة في رسم المشهد الذي يتم استخلاصه من الجملة. وبذلك، يمكن لـ ERNIE-ViL تعلُّم تمثيلات مشتركة تمثل مطابقة المعاني المفصلة بين الرؤية واللغة. وبعد التدريب المسبق على مجموعات بيانات كبيرة من الصور والنصوص المُحاذاة، نختبر فعالية ERNIE-ViL على خمسة مهام لاحقة متعددة الوسائط. ويحقق ERNIE-ViL أداءً من الدرجة الأولى في جميع هذه المهام، ويتصدّر قائمة التصنيف في مسابقة VCR بتحسّن مطلق قدره 3.7%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ERNIE-ViL: تمثيلات متعددة الحواس مُعززة بالمعرفة من خلال رسم بياني للمشهد | مستندات | HyperAI