شبكات تفاعل القنوات للتصنيف الدقيق للصور

التصنيف الدقيق للصور يُعد تحديًا بسبب الفروقات الدقيقة بين الفئات. نحن نفترض أن استغلال العلاقات الغنية بين القنوات يمكن أن يساعد في اكتشاف هذه الفروقات، نظرًا لأن القنوات المختلفة تتوافق مع معاني مختلفة. في هذه الورقة، نقترح شبكة تفاعل القنوات (CIN)، التي تُعدّل التفاعل بين القنوات داخل الصورة وعبر الصور. بالنسبة لصورة واحدة، نُقدّم وحدة تفاعل ذاتي بين القنوات (SCI) لاستكشاف الارتباط بين القنوات داخل الصورة. هذا يمكّن النموذج من تعلّم السمات المكملة من القنوات المرتبطة، مما يؤدي إلى توليد سمات دقيقة أكثر. علاوةً على ذلك، مع وجود زوج من الصور، نُقدّم وحدة تفاعل قنوات تباينية (CCI) لتمثيل التفاعل بين القنوات عبر العينات باستخدام إطار عمل التعلم القياسي، مما يسمح لشبكة CIN بالتمييز بين الفروقات البصرية الدقيقة بين الصور. يمكن تدريب نموذجنا بكفاءة بطريقة نهائية (end-to-end) دون الحاجة إلى تدريب وفحص متعدد المراحل. وأخيرًا، أجرينا تجارب شاملة على ثلاث معايير مفتوحة المصدر، حيث أظهرت النتائج أن الطريقة المقترحة تفوق باستمرار الطرق الرائدة في المجال، مثل DFL-CNN (Wang, Morariu, وDavis 2018) وNTS (Yang et al. 2018).