2달 전
객체 중심 다중 작업 학습을 통한 인간 인스턴스 처리
Son, Hyeongseok ; Jung, Sangil ; Lee, Solae ; Kim, Seongeun ; Park, Seung-In ; Yoo, ByungIn

초록
사람은 검출, 분할, 자세 추정과 같은 시각 인식 작업에서 가장 중요한 클래스 중 하나입니다. 개별 작업에는 많은 노력이 투입되었지만, 이 세 가지 작업을 위한 다중 작업 학습은 거의 연구되지 않았습니다. 본 논문에서는 객체 중심 학습을 통해 여러 작업의 매개변수를 최대한 공유하는 콤팩트한 다중 작업 네트워크 구조를 탐구합니다. 이를 위해 사람 인스턴스 정보를 효과적으로 인코딩하기 위한 새로운 쿼리 설계인 사람 중심 쿼리(Human-Centric Query, HCQ)를 제안합니다. HCQ는 쿼리가 사람의 명시적이고 구조적인 정보(예: 키포인트)를 학습할 수 있도록 합니다. 또한, 우리는 HCQ를 대상 작업의 예측 헤드에 직접 활용하고, Transformer 디코더의 변형 주의 메커니즘(deformable attention)과 결합하여 잘 학습된 객체 중심 표현을 활용합니다. 실험 결과, 제안된 다중 작업 네트워크는 사람 검출, 분할, 자세 추정 작업에서 기존 최신(task-specific) 모델과 유사한 정확도를 달성하면서도 더 적은 계산 비용을 소비함을 보여줍니다.