HyperAIHyperAI

Command Palette

Search for a command to run...

التقييم المُدرك للغموض في استرجاع الصور المُوجهة بالنص

Junyang Chen Hanjiang Lai

الملخص

استرجاع الصور الموجهة بالنص يهدف إلى دمج النص الشرطي لفهم أفضل لنية المستخدم. في الماضي، ركزت الطرق المتوفرة على تقليل المسافات بين التضمينات الخاصة بالمدخلات المصدرية والصورة المستهدفة، باستخدام الثلاثيات المقدمة \langleالصورة المصدرية، النص المصدرية، الصورة المستهدفة\rangle. ومع ذلك، قد يُحدّ هذا التحسين الثلاثي من قدرة النموذج المستخلص على التقاط معلومات التصنيف التفصيلية، مثل أن الثلاثيات تمثل علاقة واحدة مقابل واحدة، ولا تأخذ بعين الاعتبار العلاقات متعددة مقابل متعددة الناتجة عن التنوع الدلالي في لغات التغذية الراجعة والصور. لالتقاط معلومات تصنيف أكثر، نقترح منهجية جديدة تعتمد على التمييز بالتحفيز غير المؤكد لتمثيل العلاقات متعددة مقابل متعددة باستخدام فقط الثلاثيات المقدمة. نُدخل تعلم عدم اليقين لاستخلاص قائمة تصنيف عشوائية للسمات. وبشكل خاص، يتألف هذا النهج من ثلاث مكونات رئيسية: (1) عدم اليقين الداخلي للعينة، والذي يهدف إلى التقاط التنوع الدلالي باستخدام توزيع غاوسي مستمد من السمات المدمجة والسمات المستهدفة معًا؛ (2) عدم اليقين بين العينات، والذي يستخرج معلومات التصنيف الإضافية من توزيعات العينات الأخرى؛ و(3) الت régularization التوزيعي، الذي يُوجّه تمثيلات التوزيع بين المدخلات المصدرية والصورة المستهدفة. مقارنة بالطرق الرائدة الحالية، حققت طريقة المقترحة نتائج متميزة على مجموعتي بيانات عامتين لاسترجاع الصور المركبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التقييم المُدرك للغموض في استرجاع الصور المُوجهة بالنص | مستندات | HyperAI