HyperAIHyperAI
منذ 11 أيام

VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق

Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Marçal Rusiñol, Oriol Ramos Terrades
VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق
الملخص

لقد حققت التعلم متعدد الوسائط من بيانات المستندات نجاحًا كبيرًا مؤخرًا، حيث يسمح بتدريب مسبق لسمات ذات معنى معنويًا كمعلومة سابقة في مهمة تعلم لاحقة قابلة للتحسين. في هذه الورقة، نتناول مشكلة تصنيف المستندات من خلال تعلم تمثيلات متعددة الوسائط من خلال إشارات اللغة والرؤية، مع أخذ الاتصالات داخل الوسائط وخارجها بعين الاعتبار. بدلًا من دمج الميزات من وسائط مختلفة في فضاء تمثيل مشترك، يستخدم النهج المقترح التفاعلات على المستوى العالي، ويدرس المعلومات المعنوية ذات الصلة من خلال تدفقات الانتباه الفعالة داخل الوسائط وعبرها. تم تصميم هدف التعلم المقترح بين مهام التوافق الداخلي والخارجي للوسائط، حيث يتم حساب توزيع التشابه لكل مهمة من خلال تقليل أزواج العينات الإيجابية مع التباين في نفس الوقت مع العينات السلبية في فضاء التمثيل المشترك. أظهرت التجارب الواسعة على مجموعات بيانات تصنيف المستندات العامة فعالية نموذجنا وعموميته على مجموعات بيانات صغيرة وكبيرة الحجم.

VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق | أحدث الأوراق البحثية | HyperAI