تكبير وتصغير: شبكة ثلاثية متعددة القياسات للكشف عن الأشياء المموهة

الاقتراح الأخير للكشف عن الأشياء المموهة (COD) يحاول فصل الأشياء التي تندمج بصريًا في محيطها، وهو أمر معقد وصعب للغاية في السيناريوهات الحقيقية. بالإضافة إلى التشابه الداخلي العالي بين الأشياء المموهة والخلفية، تكون هذه الأشياء عادة متنوعة في الحجم، ضبابية في المظهر، وحتى مشوهة بشدة. للتعامل مع هذه المشاكل، نقترح شبكة ثلاثية ذات مقاييس مختلطة، والتي نطلق عليها اسم \textbf{ZoomNet}، والتي تحاكي سلوك الإنسان عند مشاهدة الصور الغامضة، أي التكبير والتصغير. بتحديد أكثر، يستخدم ZoomNet استراتيجية التكبير والتصغير لتعلم الدلالات ذات المقاييس المختلطة المميزة من خلال وحدة دمج المقاييس المصممة ووحدة الهرمية ذات المقاييس المختلطة، مما يتيح استكشاف أدلة غير مرئية بشكل كامل بين الأشياء المرشحة ومحيط الخلفية. علاوة على ذلك، بالنظر إلى عدم اليقين والغموض الناشئ عن النقوش غير القابلة للتفرقة، نقوم بإنشاء قيد تنظيمي بسيط ولكنه فعال، وهو خسارة واعية بعدم اليقين (uncertainty-aware loss)، لتعزيز قدرة النموذج على إنتاج توقعات دقيقة بمزيد من الثقة في المناطق المرشحة. دون إضافة تعقيدات زائدة، يتخطى النموذج المقترح لدينا باستمرار 23 طريقة رائدة حاليًا على أربع قواعد بيانات عامة. بالإضافة إلى ذلك,تفوق أداء النموذج على النماذج الرائدة الحديثة في مهمة الكشف عن الأجسام المعزولة (SOD) يؤكد أيضًا فعالية وإطلاق عام لنموذجنا. سيتم توفير الشيفرة البرمجية في \url{https://github.com/lartpang/ZoomNet}.