HyperAIHyperAI
منذ 2 أشهر

استرجاع الصور على الصور الحقيقية باستخدام نماذج الرؤية واللغة المدربة مسبقًا

Liu, Zheyuan ; Rodriguez-Opazo, Cristian ; Teney, Damien ; Gould, Stephen
استرجاع الصور على الصور الحقيقية باستخدام نماذج الرؤية واللغة المدربة مسبقًا
الملخص

نوسّع مهمة استرجاع الصور المركبة، حيث يتألف الاستعلام الدخلي من صورة ووصف نصي قصير لكيفية تعديل هذه الصورة. حتى الآن، تم تطبيق الطرق الحالية على صور غير معقدة ضمن مجالات محدودة، مثل منتجات الأزياء، مما يحد من نطاق الدراسات المتعلقة بالاستدلال البصري العميق في سياقات غنية للصورة واللغة. لمعالجة هذه المشكلة، جمعنا مجموعة بيانات استرجاع الصور المركبة على الصور الحقيقية (CIRR)، والتي تتكون من أكثر من 36,000 زوج من الصور الجماعية ذات المجال المفتوح مع النصوص التعديلية التي أنتجها البشر. لتوسيع الطرق الحالية إلى المجال المفتوح، نقترح نموذج CIRPLANT المستند إلى الترانسفورمر، والذي يستفيد من المعرفة البصرية واللغوية المسبقة التدريب بشكل غني لتعديل الخصائص البصرية بحسب اللغة الطبيعية. يتم بعد ذلك استرجاع الصور عن طريق البحث عن الجيران الأقرب بناءً على الخصائص المعتمدة. نثبت أن CIRPLANT تتفوق على الطرق الموجودة في مجال الصور ذات المجال المفتوح، بينما تحقق دقة متطابقة لأحدث التقنيات في القواعد الضيقة الموجودة، مثل مجال الأزياء. مع إصدار مجموعة البيانات CIRR، نعتقد أن هذا العمل سيحفز المزيد من الأبحاث حول استرجاع الصور المركبة.

استرجاع الصور على الصور الحقيقية باستخدام نماذج الرؤية واللغة المدربة مسبقًا | أحدث الأوراق البحثية | HyperAI