HyperAIHyperAI
منذ 2 أشهر

التعلم متعدد الوسائط المتسق دوريًا والمعمم بدون أمثلة

Rafael Felix; B. G. Vijay Kumar; Ian Reid; Gustavo Carneiro
التعلم متعدد الوسائط المتسق دوريًا والمعمم بدون أمثلة
الملخص

في التعلم الصفر العام (GZSL)، يتم تقسيم مجموعة الفئات إلى فئات مشاهدة وفئات غير مشاهدة، حيث تعتمد التدريب على الخصائص الدلالية للفئات المشاهدة وغير المشاهدة والتمثيلات البصرية فقط للفئات المشاهدة، بينما يستخدم الاختبار التمثيلات البصرية للفئات المشاهدة وغير المشاهدة. تتعامل الطرق الحالية مع GZSL من خلال تعلم تحويل من الفضاء البصري إلى الفضاء الدلالي، مستكشفة الافتراض أن توزيع الفئات في الفضاءين الدلالي والبصري هو نسبيًا متشابه. غالبًا ما تميل هذه الطرق إلى تحويل التمثيلات البصرية غير المشاهدة في الاختبار إلى خصائص دلالية لأحد الفئات المشاهدة بدلاً من خصائص الفئة الغير مشاهدة الصحيحة، مما يؤدي إلى انخفاض دقة تصنيف GZSL. مؤخرًا، تم استكشاف شبكات المواجهة التوليدية (GAN) لإنشاء تمثيلات بصرية للفئات غير المشاهدة من خصائصها الدلالية - ثم يتم استخدام التمثيلات المنشأة للفئات المشاهدة وغير المشاهدة لتدريب تصنيف GZSL. أظهر هذا النهج زيادة في دقة تصنيف GZSL، ومع ذلك، لا يوجد ضمان بأن التمثيلات البصرية المنشأة يمكن أن تستعيد خصائصها الدلالية بطريقة متعددة الأوضاع ومتوافقة دوريًا. يمكن أن ينتج عن هذا القيد تمثيلات بصرية منشأة لا تمثل بشكل جيد خصائصها الدلالية. في هذا البحث، نقترح استخدام مثل هذا القيد بناءً على تنظيم جديد للتدريب على GAN يجبر الخواص البصرية المنشأة على إعادة بناء خواصها الدلالية الأصلية. بمجرد تدريب نموذجنا مع هذه التناسق المتعددة الأوضاع والمتوافقة دوريًا بين الخواص الدلالية، يمكننا بعد ذلك إنشاء تمثيلات بصرية أكثر تمثيلاً للفئات المشاهدة وأهم من ذلك للفئات غير المشاهدة. يظهر نهجنا المقترح أفضل نتائج تصنيف GZSL في المجال في عدة قواعد بيانات متاحة للعامة.