HyperAIHyperAI

Command Palette

Search for a command to run...

استرجاع الصور المركبة بدون تدريب مسبق باستخدام الانعكاس النصي

Baldrati Alberto ; Agnolucci Lorenzo ; Bertini Marco ; Del Bimbo Alberto

الملخص

استرجاع الصور المركبة (CIR) يهدف إلى استرجاع صورة الهدف بناءً على استعلام يتكون من صورة مرجعية وتعليق نسبي يصف الفرق بين الصورتين. تعيق الجهود والتكلفة العالية المطلوبة لتصنيف مجموعات البيانات استخدام الأساليب الحالية على نطاق واسع، حيث تعتمد هذه الأساليب على التعلم الإشرافي. في هذا البحث، نقترح مهمة جديدة تسمى استرجاع الصور المركبة بدون أمثلة سابقة (ZS-CIR)، والتي تهدف إلى معالجة CIR دون الحاجة إلى مجموعة بيانات تدريبية مصنفة. نهجنا، الذي أطلقنا عليه اسم SEARLE (استرجاع الصور المركبة بدون أمثلة سابقة باستخدام الانعكاس النصي)، يقوم بتحويل الخصائص البصرية للصورة المرجعية إلى رمز كلمة زائفة في فضاء تمثيل الكلمات في CLIP ويدمجه مع التعليق النسبي. لدعم الأبحاث حول ZS-CIR، نقدم مجموعة بيانات قياسية عامة تسمى استرجاع الصور المركبة للأجسام الشائعة في السياق (CIRCO)، وهي أول مجموعة بيانات لـ CIR تحتوي على العديد من الحقائق الأرضية لكل استعلام. أظهرت التجارب أن SEARLE يحقق أداءً أفضل من النماذج الأساسية في المجموعتين الرئيسيتين من البيانات المستخدمة في مهام CIR، وهما FashionIQ و CIRR، وكذلك في CIRCO المقترحة. يمكن الوصول إلى مجموعة البيانات والكود والنموذج بشكل عام عبر الرابط https://github.com/miccunifi/SEARLE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp