Command Palette
Search for a command to run...
VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق
VLCDoC: نموذج التدريب المسبق التبايني البصري-اللغوي للتصنيف العابر للوسائط للوثائق
Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades
الملخص
لقد حققت التعلم متعدد الوسائط من بيانات المستندات نجاحًا كبيرًا مؤخرًا، حيث يسمح بتدريب مسبق لسمات ذات معنى معنويًا كمعلومة سابقة في مهمة تعلم لاحقة قابلة للتحسين. في هذه الورقة، نتناول مشكلة تصنيف المستندات من خلال تعلم تمثيلات متعددة الوسائط من خلال إشارات اللغة والرؤية، مع أخذ الاتصالات داخل الوسائط وخارجها بعين الاعتبار. بدلًا من دمج الميزات من وسائط مختلفة في فضاء تمثيل مشترك، يستخدم النهج المقترح التفاعلات على المستوى العالي، ويدرس المعلومات المعنوية ذات الصلة من خلال تدفقات الانتباه الفعالة داخل الوسائط وعبرها. تم تصميم هدف التعلم المقترح بين مهام التوافق الداخلي والخارجي للوسائط، حيث يتم حساب توزيع التشابه لكل مهمة من خلال تقليل أزواج العينات الإيجابية مع التباين في نفس الوقت مع العينات السلبية في فضاء التمثيل المشترك. أظهرت التجارب الواسعة على مجموعات بيانات تصنيف المستندات العامة فعالية نموذجنا وعموميته على مجموعات بيانات صغيرة وكبيرة الحجم.