التقييم المُدرك للغموض في استرجاع الصور المُوجهة بالنص

استرجاع الصور الموجهة بالنص يهدف إلى دمج النص الشرطي لفهم أفضل لنية المستخدم. في الماضي، ركزت الطرق المتوفرة على تقليل المسافات بين التضمينات الخاصة بالمدخلات المصدرية والصورة المستهدفة، باستخدام الثلاثيات المقدمة $\langle$الصورة المصدرية، النص المصدرية، الصورة المستهدفة$\rangle$. ومع ذلك، قد يُحدّ هذا التحسين الثلاثي من قدرة النموذج المستخلص على التقاط معلومات التصنيف التفصيلية، مثل أن الثلاثيات تمثل علاقة واحدة مقابل واحدة، ولا تأخذ بعين الاعتبار العلاقات متعددة مقابل متعددة الناتجة عن التنوع الدلالي في لغات التغذية الراجعة والصور. لالتقاط معلومات تصنيف أكثر، نقترح منهجية جديدة تعتمد على التمييز بالتحفيز غير المؤكد لتمثيل العلاقات متعددة مقابل متعددة باستخدام فقط الثلاثيات المقدمة. نُدخل تعلم عدم اليقين لاستخلاص قائمة تصنيف عشوائية للسمات. وبشكل خاص، يتألف هذا النهج من ثلاث مكونات رئيسية: (1) عدم اليقين الداخلي للعينة، والذي يهدف إلى التقاط التنوع الدلالي باستخدام توزيع غاوسي مستمد من السمات المدمجة والسمات المستهدفة معًا؛ (2) عدم اليقين بين العينات، والذي يستخرج معلومات التصنيف الإضافية من توزيعات العينات الأخرى؛ و(3) الت régularization التوزيعي، الذي يُوجّه تمثيلات التوزيع بين المدخلات المصدرية والصورة المستهدفة. مقارنة بالطرق الرائدة الحالية، حققت طريقة المقترحة نتائج متميزة على مجموعتي بيانات عامتين لاسترجاع الصور المركبة.