
초록
다중 작업 밀도 장면 이해는 픽셀 단위 예측을 포함하는 일련의 상관된 작업에 대한 동시 인식과 추론이 필요한 번성한 연구 영역입니다. 대부분의 기존 연구들은 합성곱 연산을 과도하게 사용하여 국소 모델링에 심각한 제약을 겪고 있으며, 이 문제를 해결하기 위해서는 전역 공간 위치와 다중 작업 맥락에서의 상호작용과 추론 학습이 필수적입니다. 본 논문에서는 통합 프레임워크에서 공간 위치와 여러 작업을 동시에 모델링하기 위해 새로운 엔드투엔드 역피라미드 다중 작업 트랜스포머(InvPT)를 제안합니다. 최선의 지식으로 판단할 때, 이는 장면 이해를 위한 다중 작업 밀도 예측에 트랜스포머 구조 설계를 탐구하는 첫 번째 연구입니다. 또한, 높은 공간 해상도가 밀도 예측에 매우 유익하다는 것이 널리 입증되었지만, 기존 트랜스포머들이 큰 복잡성 때문에 큰 공간 크기로 더 깊게 들어가는 것은 매우 어려운 문제입니다. InvPT는 점차 증가하는 해상도에서 다중 작업 특징 상호작용을 학습하기 위한 효율적인 UP-트랜스포머 블록을 제시하며, 이 블록은 효과적인 자기 주의 메시지 전달과 다중 규모 특징 집합을 통해 고해상도에서 작업별 예측을 생성합니다. 우리의 방법은 NYUD-v2와 PASCAL-Context 데이터셋에서 각각 우수한 다중 작업 성능을 달성하였으며, 기존 최신 연구들을 크게 능가하였습니다. 코드는 https://github.com/prismformore/InvPT 에서 제공됩니다.