Pyramid Grafting Network for One-Stage High Resolution Saliency Detection 단계형 접목 네트워크를 이용한 단일 단계 고해상도 주요성 검출

최근 딥 뉴럴 네트워크를 기반으로 하는 주요 객체 검출(SOD) 방법들이 뛰어난 성능을 달성하였습니다. 그러나 대부분의 기존 SOD 모델은 저해상도 입력을 위해 설계되어 고해상도 이미지에서는 샘플링 깊이와 수용 영역 크기 사이의 모순으로 인해 성능이 저하됩니다. 이 모순을 해결하기 위해 우리는 Transformer와 CNN 백본을 사용하여 서로 다른 해상도의 이미지에서 독립적으로 특징을 추출하고, 이를 Transformer 분기에서 CNN 분기로 이식하는 새로운 단일 단계 프레임워크인 피라미드 이식 네트워크(PGNet, Pyramid Grafting Network)를 제안합니다. 또한, 디코딩 과정 중 다양한 소스 특징에 의해 안내되는 주목 기반 크로스-모델 이식 모듈(CMGM, Cross-Model Grafting Module)을 제안하여 CNN 분기가 더 통합적으로 파편화된 상세 정보를 결합할 수 있도록 합니다. 더욱이, 우리는 CMGM에서 생성된 주목 행렬을 명시적으로 감독하기 위한 주목 안내 손실(AGL, Attention Guided Loss)을 설계하여 네트워크가 다양한 모델로부터의 주목과 더 잘 상호작용하도록 도와줍니다. 우리는 4K-8K 해상도의 5,920장의 이미지를 포함하는 새로운 초고해상도 주요성 검출 데이터셋 UHRSD(Ultra-High-Resolution Saliency Detection dataset)를 제공합니다. 우리 지식으로는, 이 데이터셋은 고해상도 SOD 작업에 있어 양과 해상도 모두 가장 큰 데이터셋이며, 향후 연구에서 학습 및 테스트 용도로 활용될 수 있습니다. UHRSD와 일반적으로 사용되는 SOD 데이터셋들에 대한 충분한 실험 결과는 우리의 방법이 최신 방법들과 비교하여 우수한 성능을 보임을 입증하였습니다.