Command Palette
Search for a command to run...
Leena Alghamdi Muhammad Usman Hafeez Anwar Abdul Bais Saeed Anwar

초록
다음은 해당 텍스트를 기술 및 학술 전문 용어를 사용하여 한국어로 번역한 내용입니다.위장 객체 탐지(Camouflaged Object Detection)는 색상, 질감 및 크기의 높은 유사성으로 인해 주변 환경과 완벽하게 동화된 객체를 식별하고 분할해야 하는, 컴퓨터 비전 분야에서 부상하고 있는 고난도 과제입니다. 이 작업은 저조도 환경, 부분적 폐색(partial occlusion), 작은 객체 크기, 복잡한 배경 패턴 및 다중 객체 등의 요인으로 인해 그 난이도가 더욱 가중됩니다. 이 과제를 해결하기 위해 정교한 기법들이 다수 제안되었으나, 현존하는 방법들은 여전히 복잡한 시나리오, 특히 객체가 작거나 다수인 경우 위장된 객체를 정밀하게 탐지하는 데 어려움을 겪고 있어 개선의 여지가 남아 있습니다.이에 본 연구에서는 피라미드 비전 트랜스포머(Pyramid Vision Transformer) 백본을 통해 다중 스케일(multi-scale) 특징을 추출하고, 특화된 어텐션 기반 스케일 통합 유닛(Attention-Based Scale Integration Units)을 통해 이를 결합하여 선택적 특징 병합을 가능하게 하는 다중 스케일 재귀 네트워크(Multi-Scale Recursive Network)를 제안합니다. 보다 정밀한 객체 탐지를 위해, 본 연구의 디코더는 다중 입도 융합 유닛(Multi-Granularity Fusion Units)을 도입하여 특징을 재귀적으로 정제(refine)합니다. 또한 전역적 문맥(global context) 이해를 강화하기 위해 새로운 재귀적 피드백 디코딩 전략을 개발하였으며, 이는 모델이 해당 과제의 난제들을 극복하는 데 기여합니다.제안된 방법은 다중 스케일 학습과 재귀적 특징 최적화를 결합하여 활용함으로써 성능 향상을 달성했으며, 작고 다수인 위장 객체들을 성공적으로 탐지해냈습니다. 본 모델은 두 개의 위장 객체 탐지 벤치마크 데이터셋에서 최고 수준(state-of-the-art)의 성과를 달성하였으며, 나머지 두 데이터셋에서는 2위를 기록했습니다. 본 연구의 코드, 모델 가중치 및 결과는 href{https://github.com/linaagh98/MSRNet}{https://github.com/linaagh98/MSRNet}에서 확인하실 수 있습니다.