HyperAIHyperAI
منذ 15 أيام

التحديد بدون كاشف للربط المراقب الضعيف من خلال الفصل

Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky
التحديد بدون كاشف للربط المراقب الضعيف من خلال الفصل
الملخص

في الوقت الراهن، توجد كميات هائلة من البيانات التي تتضمن صورًا ونصوصًا حرة الشكل مترابطة بشكل ضعيف مع هذه الصور. يُعنى التعلّم المُراقب بشكل ضعيف لربط العبارات (WSG) بمهام تحديد مواقع عبارات نصية عشوائية داخل الصور باستخدام هذه البيانات دون الحاجة إلى أي تسميات إضافية. ومع ذلك، يفترض معظم الطرق الحديثة الرائدة في مجال WSG وجود كاشف كائن مُدرّب مسبقًا، حيث تعتمد على هذا الكاشف لإنتاج مناطق الاهتمام (ROIs) لغرض التحديد. في هذا العمل، نركّز على مهمة WSG دون كاشف (DF-WSG)، بهدف حل مسألة WSG دون الاعتماد على كاشف مُدرّب مسبقًا. نتعلم كل شيء مباشرة من أزواج الصور والنصوص الحرة المرتبطة بها، مما يتيح لنا احتمال تحقيق ميزة في الفئات التي لا يغطيها الكاشف. الفكرة الأساسية وراء طريقة GbS (الربط من خلال الفصل) التي نقترحها تكمن في إنشاء ارتباطات من النص إلى مناطق الصورة من خلال عملية خلط عشوائي (alpha-blending) بين صورتين عشوائيتين، واستخدام النصوص المرتبطة بهذه الزوجية كشروط لاستعادة خريطة alpha من الصورة المدمجة باستخدام شبكة تجزئة. وفي وقت الاختبار، يمكننا استخدام العبارة المطلوبة كشرط للصورة غير المدمجة، مما يسمح لنا بتفسير الصورة الاختبارية على أنها تكوين مكوّن من منطقة تتوافق مع العبارة، ومنطقة مكملة. وباستخدام هذا النهج، نُظهر تحسنًا كبيرًا في الدقة، يصل إلى 8.5٪ مقارنةً بأفضل النماذج السابقة في مجال DF-WSG، على مجموعة متنوعة من المعايير مثل Flickr30K وVisual Genome وReferIt، فضلًا عن تحسن مكمل كبير (أعلى من 7٪) مقارنةً بالطرق القائمة على الكاشف في مسائل WSG.

التحديد بدون كاشف للربط المراقب الضعيف من خلال الفصل | أحدث الأوراق البحثية | HyperAI