VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق

لقد حققت التعلم متعدد الوسائط من بيانات المستندات نجاحًا كبيرًا مؤخرًا، حيث يسمح بتدريب مسبق لسمات ذات معنى معنويًا كمعلومة سابقة في مهمة تعلم لاحقة قابلة للتحسين. في هذه الورقة، نتناول مشكلة تصنيف المستندات من خلال تعلم تمثيلات متعددة الوسائط من خلال إشارات اللغة والرؤية، مع أخذ الاتصالات داخل الوسائط وخارجها بعين الاعتبار. بدلًا من دمج الميزات من وسائط مختلفة في فضاء تمثيل مشترك، يستخدم النهج المقترح التفاعلات على المستوى العالي، ويدرس المعلومات المعنوية ذات الصلة من خلال تدفقات الانتباه الفعالة داخل الوسائط وعبرها. تم تصميم هدف التعلم المقترح بين مهام التوافق الداخلي والخارجي للوسائط، حيث يتم حساب توزيع التشابه لكل مهمة من خلال تقليل أزواج العينات الإيجابية مع التباين في نفس الوقت مع العينات السلبية في فضاء التمثيل المشترك. أظهرت التجارب الواسعة على مجموعات بيانات تصنيف المستندات العامة فعالية نموذجنا وعموميته على مجموعات بيانات صغيرة وكبيرة الحجم.