التصنيف السريع للصور دون تدريب مسبق

تظهر تجارب التشبيه الكلامي المعروفة أن المتجهات الكلامية الحديثة تستطيع التقاط التفاصيل الدقيقة للقواعد اللغوية في الكلمات من خلال تحويلات متجهية خطية، ولكن لا يزال غير واضح مدى قدرة هذه التحويلات البسيطة على ترميز القواعد البصرية عبر الكلمات. في هذا البحث، ندرس علاقة صورية معينة بين الصور والكلمات. تبين نتائجنا أن متجهات الكلمات ذات الصلة بصورة معينة تحتل مرتبة أعلى من الكلمات غير ذات الصلة على طول اتجاه رئيسي في فضاء المتجهات الكلامية. مستوحين من هذه الملاحظة، نقترح حل مشكلة تصنيف الصور عن طريق تقدير الاتجاه الرئيسي لصورة ما. بشكل خاص، نستغل التحويلات الخطية والشبكات العصبية العميقة اللاخطية لتقريب الاتجاه الرئيسي من صورة إدخال. وصلنا إلى نموذج تصنيف متعدد الاستخدامات. يعمل النموذج بسرعة عند اختبار صورة، وفي وقت ثابت بالنسبة لحجم مجموعة التدريب. فهو ليس فقط يقدم أداءً أفضل للمهمة التقليدية لتصنيف الصور على مجموعة بيانات NUS-WIDE (NUS-WIDE dataset)، بل يتفوق أيضًا على النماذج الأساسية التنافسية في وضع علامات على الصور باستخدام علامات لم يتم رؤيتها سابقًا.