Command Palette
Search for a command to run...
F3Net: الاندماج، الرجوع والتركيز لاكتشاف الأشياء البارزة
F3Net: الاندماج، الرجوع والتركيز لاكتشاف الأشياء البارزة
Jun Wei Shuhui Wang Qingming Huang
الملخص
حققت معظم نماذج الكشف عن الأشياء البارزة تقدماً كبيراً من خلال دمج الخصائص المتعددة المستويات المستخرجة من الشبكات العصبية التلافيفية. ومع ذلك، بسبب المجالات الاستقبالية المختلفة للطبقات التلافيفية المختلفة، توجد فروقات كبيرة بين الخصائص المولدة بواسطة هذه الطبقات. تتجاهل استراتيجيات الدمج الشائعة للخصائص (الجمع أو الالتصاق) هذه الفروقات وقد تؤدي إلى حلول غير مثلى. في هذا البحث، نقترح F3Net لحل المشكلة المذكورة أعلاه، والتي تتكون بشكل أساسي من وحدة الخصائص العابرة (CFM) ومحقق الردود المتتالي (CFD) الذي يتم تدريبه بتحقيق أدنى خسارة جديدة على مستوى موقع البكسل (PPA). تحديداً، يهدف CFM إلى دمج الخصائص المتعددة المستويات بشكل انتقائي. على عكس الجمع والالتصاق، يختار CFM مكونات مكملة بشكل متكيف من الخصائص المدخلة قبل الدمج، مما يمكنه من تجنب إدخال الكثير من المعلومات الزائدة التي قد تشوه الخصائص الأصلية بشكل فعال. بالإضافة إلى ذلك، يعتمد CFD على آلية ردود متعددة المراحل، حيث سيتم تقديم الخصائص القريبة من الإشراف إلى مخرجات الطبقات السابقة لتعزيزها وتقليل الفروقات بين الخصائص. ستمر هذه الخصائص المكررة بعدد متعدد من التكرارات المشابهة قبل إنتاج خرائط البارزة النهائية. علاوة على ذلك، على عكس الانحراف الثنائي المتقاطع، فإن خسارة PPA المقترحة لا تعامل البكسلات بالتساوي، حيث يمكنها دمج معلومات الهيكل المحلي للبكسل لتوجيه الشبكة إلى التركيز أكثر على التفاصيل المحلية. سيتم إعطاء المزيد من الاهتمام للبكسلات الصعبة من الحدود أو الأجزاء التي تكون عرضة للأخطاء لتأكيد أهميتها. يمكن لـ F3Net تقسيم المناطق البارزة بدقة وتوفير تفاصيل محلية واضحة. أظهرت التجارب الشاملة على خمسة قواعد بيانات مرجعية أن F3Net يتفوق على أفضل الأساليب الحالية في ست مقاييس تقييم.