منذ 6 أشهر

الملخص

استرجاع الصور الموجهة بالنص يهدف إلى دمج النص الشرطي لفهم أفضل لنية المستخدم. في الماضي، ركزت الطرق المتوفرة على تقليل المسافات بين التضمينات الخاصة بالمدخلات المصدرية والصورة المستهدفة، باستخدام الثلاثيات المقدمة $\langle$ الصورة المصدرية، النص المصدرية، الصورة المستهدفة $\rangle$ . ومع ذلك، قد يُحدّ هذا التحسين الثلاثي من قدرة النموذج المستخلص على التقاط معلومات التصنيف التفصيلية، مثل أن الثلاثيات تمثل علاقة واحدة مقابل واحدة، ولا تأخذ بعين الاعتبار العلاقات متعددة مقابل متعددة الناتجة عن التنوع الدلالي في لغات التغذية الراجعة والصور. لالتقاط معلومات تصنيف أكثر، نقترح منهجية جديدة تعتمد على التمييز بالتحفيز غير المؤكد لتمثيل العلاقات متعددة مقابل متعددة باستخدام فقط الثلاثيات المقدمة. نُدخل تعلم عدم اليقين لاستخلاص قائمة تصنيف عشوائية للسمات. وبشكل خاص، يتألف هذا النهج من ثلاث مكونات رئيسية: (1) عدم اليقين الداخلي للعينة، والذي يهدف إلى التقاط التنوع الدلالي باستخدام توزيع غاوسي مستمد من السمات المدمجة والسمات المستهدفة معًا؛ (2) عدم اليقين بين العينات، والذي يستخرج معلومات التصنيف الإضافية من توزيعات العينات الأخرى؛ و(3) الت régularization التوزيعي، الذي يُوجّه تمثيلات التوزيع بين المدخلات المصدرية والصورة المستهدفة. مقارنة بالطرق الرائدة الحالية، حققت طريقة المقترحة نتائج متميزة على مجموعتي بيانات عامتين لاسترجاع الصور المركبة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار