HyperAIHyperAI

Command Palette

Search for a command to run...

VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

الملخص

لقد حققت التعلم متعدد الوسائط من بيانات المستندات نجاحًا كبيرًا مؤخرًا، حيث يسمح بتدريب مسبق لسمات ذات معنى معنويًا كمعلومة سابقة في مهمة تعلم لاحقة قابلة للتحسين. في هذه الورقة، نتناول مشكلة تصنيف المستندات من خلال تعلم تمثيلات متعددة الوسائط من خلال إشارات اللغة والرؤية، مع أخذ الاتصالات داخل الوسائط وخارجها بعين الاعتبار. بدلًا من دمج الميزات من وسائط مختلفة في فضاء تمثيل مشترك، يستخدم النهج المقترح التفاعلات على المستوى العالي، ويدرس المعلومات المعنوية ذات الصلة من خلال تدفقات الانتباه الفعالة داخل الوسائط وعبرها. تم تصميم هدف التعلم المقترح بين مهام التوافق الداخلي والخارجي للوسائط، حيث يتم حساب توزيع التشابه لكل مهمة من خلال تقليل أزواج العينات الإيجابية مع التباين في نفس الوقت مع العينات السلبية في فضاء التمثيل المشترك. أظهرت التجارب الواسعة على مجموعات بيانات تصنيف المستندات العامة فعالية نموذجنا وعموميته على مجموعات بيانات صغيرة وكبيرة الحجم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp