2달 전

F3Net: 융합, 피드백 및 주요 객체 검출을 위한 초점

Wei, Jun ; Wang, Shuhui ; Huang, Qingming
F3Net: 융합, 피드백 및 주요 객체 검출을 위한 초점
초록

기존의 대부분의 주요 객체 검출 모델들은 합성곱 신경망에서 추출된 다중 수준의 특징들을 집계함으로써 큰 발전을 이룩하였습니다. 그러나 서로 다른 합성곱 층들의 수용 영역이 다르기 때문에, 이러한 층들에 의해 생성된 특징들 사이에는 큰 차이가 존재합니다. 일반적인 특징 융합 전략(덧셈 또는 연결)은 이러한 차이를 무시하고, 비최적해를 초래할 가능성이 있습니다. 본 논문에서는 위 문제를 해결하기 위해 F3Net을 제안하며, 이는 새로운 픽셀 위치 인식 손실(Pixel Position Aware Loss, PPA)을 최소화하여 훈련되는 크로스 특징 모듈(Cross Feature Module, CFM)과 계단형 피드백 디코더(Cascaded Feedback Decoder, CFD)로 주로 구성됩니다.특히, CFM은 선택적으로 다중 수준의 특징들을 집계하는 것을 목표로 합니다. 덧셈이나 연결과 달리, CFM은 융합 전에 입력 특징들에서 보완적인 구성 요소를 적응적으로 선택하여 원래의 특징들을 파괴할 수 있는 과도한 중복 정보 도입을 효과적으로 방지합니다. 또한, CFD는 다단계 피드백 메커니즘을 채택하여 감독에 가까운 특징들이 이전 층들의 출력을 보완하고 특징들 간의 차이를 제거하도록 합니다. 이러한 정교한 특징들은 최종적인 주요도 맵(saliency map)을 생성하기 전에 여러 번 유사한 반복 과정을 거칩니다.또한, 이진 교차 엔트로피와 달리 제안된 PPA 손실은 모든 픽셀을 동등하게 취급하지 않습니다. PPA 손실은 픽셀의 국부 구조 정보를 종합하여 네트워크가 국부 세부 사항에 더 집중하도록 안내합니다. 경계나 오류가 발생하기 쉬운 부분에서 온 어려운 픽셀들은 그 중요성을 강조하기 위해 더 많은 주목을 받습니다.F3Net은 주요 객체 영역을 정확히 분할하고 명확한 국부 세부 사항을 제공할 수 있습니다. 5개의 벤치마크 데이터셋에 대한 포괄적인 실험 결과는 F3Net이 6개 평가 지표에서 기존 최신 접근법들을 능가한다는 것을 입증하였습니다.

F3Net: 융합, 피드백 및 주요 객체 검출을 위한 초점 | 최신 연구 논문 | HyperAI초신경