HyperAIHyperAI

Command Palette

Search for a command to run...

استرجاع الصور النصية المركبة بدون تدريب مسبق

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

الملخص

في هذا البحث، نتناول مشكلة استرجاع الصور المركبة (CIR)، والتي تهدف إلى تدريب نموذج يمكنه دمج معلومات متعددة الأوضاع، مثل النصوص والصور، لاسترجاع الصور بدقة تطابق الاستفسار، مما يوسع قدرة المستخدم على التعبير. نقدم المساهمات التالية: (أ) نبدأ بخط أنابيب قابل للتوسيع لبناء مجموعات بيانات تلقائيًا لتدريب نموذج CIR، من خلال الاستفادة من مجموعة بيانات كبيرة تحتوي على أزواج صورة-نص، مثل مجموعة فرعية من LAION-5B؛ (ب) نقدم نموذج تجميع متكيف يستند إلى المحول (Transformer)، وهو TransAgg، الذي يستخدم آلية دمج بسيطة وفعالة لتجميع المعلومات بشكل متكيف من أوضاع مختلفة؛ (ج) نقوم بدراسات تقليصية واسعة النطاق للتحقيق في فائدة إجراء بناء البيانات المقترح لدينا، وفعالية المكونات الأساسية في TransAgg؛ (د) عند التقييم على مقاييس عامة متاحة للجمهور في سيناريو الصفر-الاطلاق (zero-shot scenario)، أي التدريب على مجموعات البيانات التي تم بناؤها تلقائيًا ثم إجراء الاستدلال مباشرة على مجموعات البيانات اللاحقة المستهدفة، مثل CIRR و FashionIQ، فإن النهج المقترح لدينا إما يحقق أداءً مماثلاً أو يتفوق بشكل كبير على النماذج الرائدة الحالية (SOTA). صفحة المشروع: https://code-kunkun.github.io/ZS-CIR/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استرجاع الصور النصية المركبة بدون تدريب مسبق | مستندات | HyperAI