
초록
기존의 방법들은 보조적인 일대다 할당을 도입함으로써 탐지 트랜스포머의 학습을 향상시킨다. 본 연구에서는 모델을 다중 작업 프레임워크로 간주하여, 동시에 일대일 및 일대다 예측을 수행한다. 우리는 트랜스포머 디코더 내부의 각 구성 요소(자기주의 주의, 교차 주의, 피드포워드 네트워크)가 이러한 두 가지 학습 목표에서 수행하는 역할을 탐구한다. 실험 결과에 따르면, 디코더 내의 어떤 독립적인 구성 요소라도 다른 구성 요소가 공유되더라도, 동시에 두 목표를 효과적으로 학습할 수 있음을 확인하였다. 이 발견을 바탕으로, 일대일 예측을 위한 주 경로와 일대다 예측을 위한 두 개의 보조 학습 경로를 갖는 다중 경로 학습 메커니즘을 제안한다. 또한, 일대다 예측을 위한 객체 쿼리를 동적으로 유연하게 안내할 수 있는 새로운 지시적 자기주의 주의 메커니즘을 도입하여 학습 메커니즘을 강화하였다. 보조 경로는 추론 과정에서는 제거되므로 모델 아키텍처나 추론 비용에 영향을 주지 않는다. 다양한 베이스라인에서 광범위한 실험을 수행한 결과, 일관된 성능 향상이 확인되었으며, 그 결과는 그림 1과 같다. 프로젝트 페이지: https://visual-ai.github.io/mrdetr