HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيلات عميقة للوصف البصري الدقيق

Scott Reed; Zeynep Akata; Bernt Schiele; Honglak Lee
تعلم تمثيلات عميقة للوصف البصري الدقيق
الملخص

طرق الرصد البصري بدون أمثلة مسبقة المتطورة حاليًا تشكل التعلم كمشكلة تمثيل مشترك للصور والمعلومات الجانبية. في هذه الصياغات، يعتبر السمات (الخصائص) أفضل مكمل حاليًا للميزات البصرية: متجهات مرمزة يدويًا تصف الخصائص المشتركة بين الفئات. رغم الأداء الجيد، فإن للسمات قيود: (1) التعرف الدقيق يتطلب عددًا أكبر من السمات بشكل متوازي، و(2) السمات لا توفر واجهة لغوية طبيعية. نقترح التغلب على هذه القيود من خلال تدريب نماذج اللغة العصبية من الصفر؛ أي دون تدريب مسبق واستهلاك الكلمات والحروف فقط. النماذج المقترحة لدينا يتم تدريبها بشكل شامل لتوافق مع المحتوى الدقيق والفئة المحددة للصور. اللغة الطبيعية توفر طريقة مرنة وموجزة لترميز الجوانب البصرية البارزة فقط التي تميز بين الفئات. بتدريب النموذج على النصوص الخام، يمكن للنموذج أيضًا إجراء الاستدلال على النصوص الخام، مما يوفر للبشر وسيلة مألوفة لكل من الإشارة والتجميع. نموذجنا حقق أداءً قويًا في استرجاع الصور القائم على النص بدون أمثلة مسبقة وأظهر تفوقًا كبيرًا على أفضل التقنيات القائمة على السمات في تصنيف الصور بدون أمثلة مسبقة على مجموعة بيانات Caltech UCSD Birds 200-2011.请注意,这里“Caltech UCSD Birds 200-2011”是一个特定的数据集名称,因此在阿拉伯语中保留了其英文形式。其他术语如“zero-shot visual recognition”(رصد بصري بدون أمثلة مسبقة)、"neural language models"(نماذج اللغة العصبية)等也采用了通用的阿拉伯语译法。