التمييز الدقيق في الفوضى من المرة الأولى

نواجه مشكلة التقطيع في المرة الأولى (one-shot segmentation): وهي إيجاد وتقسيم كائن لم يُرَ من قبل في مشهد معقد بناءً على مثال توجيهي واحد. نقترح مجموعة بيانات جديدة، نطلق عليها اسم $\textit{Omniglot المعقدة}$. باستخدام هندسة أساسية تجمع بين غرس ساموزي (Siamese embedding) لاكتشاف الكائنات وشبكة U-net للتقسيم، نظهر أن زيادة درجات التعقيد تجعل المهمة أكثر صعوبة بشكل تدريجي. باستخدام نماذج الأوراكل (oracle models) التي لديها إمكانية الوصول إلى معلومات حقيقية مختلفة، نقيم جوانب مختلفة من المشكلة ونظهر أن في هذا النوع من مهام البحث البصري، الاكتشاف والتقسيم هما مشكلتان متداخلتان، حيث يساعد حل كل واحدة منهما في حل الأخرى. ولذلك، نقدم $\textit{MaskNet}$، وهو نموذج محسن يقوم بالتركيز على مواقع مرشحة متعددة، ويولد مقترحات تقسيم لإخفاء التعقيد الخلفي ويختار بين الكائنات المقسمة. تقترح أبحاثنا أن مثل هذه النماذج للتعرف على الصور المستندة إلى تكرار تحسين الاكتشاف والتقسيم الأمامي قد توفر طريقة لمعالجة المشاهد ذات التعقيد العالي.