2달 전

Relation DETR: 객체 검출을 위한 명시적 위치 관계 사전 탐색

Hou, Xiuquan ; Liu, Meiqin ; Zhang, Senlin ; Wei, Ping ; Chen, Badong ; Lan, Xuguang
Relation DETR: 객체 검출을 위한 명시적 위치 관계 사전 탐색
초록

본 논문에서는 DETR(DEtection TRansformer)의 수렴성과 성능을 향상시키는 일반적인 방안을 제시합니다. 우리는 트랜스포머에서 발생하는 느린 수렴 문제를 새로운 관점에서 연구하였으며, 이 문제가 입력에 대한 구조적 편향을 도입하지 않는 자기 주의(self-attention)에서 비롯된다고 제안합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 제안된 정량적 거시적 상관관계(Macroscopic Correlation, MC) 지표를 사용하여 그 통계적 유의성을 검증한 후, 주의 편향(attention bias)으로서 위치 관계 사전(position relation prior)을 통합하여 객체 검출을 강화하는 방법을 탐구하였습니다. 우리의 접근 방식은 Relation-DETR로 명명되었으며, 위치 관계 임베딩(position relation embeddings)을 구성하기 위한 인코더(encoder)를 도입하여 단계적으로 주의 정제(progressive attention refinement)를 수행합니다. 이를 통해 전통적인 DETR 스트리밍 파이프라인(streaming pipeline)을 중복되지 않은 예측(non-duplicate predictions)과 양성 감독(positive supervision) 사이의 충돌을 해결하기 위한 대조적 관계 파이프라인(contrastive relation pipeline)으로 확장하였습니다.다양한 일반 데이터셋과 특정 작업 데이터셋에서 수행된 광범위한 실험 결과는 우리 접근 방식의 효과성을 입증합니다. 동일한 설정 하에서 Relation-DETR는 기존 DETR 감지기보다 COCO val2017에서 +2.0% AP(Average Precision)의 상당한 개선, 1x 설정에서 51.7% AP와 2x 설정에서 52.1% AP의 최신 기술 수준 성능, 그리고 단지 2개의 학습 에폭(epoch)만으로도 40% 이상의 AP를 달성하는 뛰어난 수렴 속도를 보여주었습니다. 또한 제안된 관계 인코더는 모든 DETR 유사 방법론에 대해 명확한 개선 효과를 가져오는 보편적인 플러그인 및 플레이(plug-in-and-play) 구성 요소로 작용합니다.또한, 클래스에 상관없이 검출할 수 있는 데이터셋인 SA-Det-100k를 소개합니다. 이 데이터셋에서 수행된 실험 결과는 제안된 명시적 위치 관계(explicit position relation)가 1.3% AP 개선 효과를 가져왔음을 보여주며, 이는 보편적인 객체 검출에 대한 잠재력을 강조합니다. 코드와 데이터셋은 https://github.com/xiuqhou/Relation-DETR에서 이용 가능합니다.

Relation DETR: 객체 검출을 위한 명시적 위치 관계 사전 탐색 | 최신 연구 논문 | HyperAI초신경