2달 전
그룹별 쿼리 특화 및 품질 인지 다중 할당을 이용한 트랜스포머 기반 시각적 관계 검출
Jongha Kim; Jihwan Park; Jinyoung Park; Jinyoung Kim; Sehyung Kim; Hyunwoo J. Kim

초록
시각적 관계 검출(VRD)은 최근에 트랜스포머 기반 아키텍처를 통해 상당한 발전을 이룩하였습니다. 그러나, 트랜스포머 기반 VRD 모델을 훈련시키는 데 사용되는 전통적인 라벨 할당 과정에서 두 가지 주요 제한점을 확인할 수 있습니다. 이 과정은 지면 진리(GT)를 예측에 매핑하는 작업입니다. 전통적인 할당 방식 하에서는, 쿼리가 모든 관계를 감지하도록 기대되므로 특정 관계에 특화된 쿼리를 훈련시키기 어렵습니다. 또한, GT가 단일 예측에만 할당되기 때문에 거의 올바르거나 완전히 올바른 예측도 GT로 '관계 없음'으로 표시되어 억눌리게 됩니다. 이러한 문제들을 해결하기 위해, 우리는 그룹별 쿼리 특화와 품질 인식 다중 할당(SpeaQ)을 제안합니다. 그룹별 쿼리 특화는 쿼리와 관계를 서로 다른 그룹으로 나누고, 특정 쿼리 그룹의 쿼리를 해당 관계 그룹의 관계만 향하게 함으로써 특화된 쿼리를 훈련시키는 방법입니다. 품질 인식 다중 할당은 주체, 객체 및 중간의 관계 면에서 GT와 유의미하게 가까운 여러 예측에 GT를 할당함으로써 훈련을 더욱 용이하게 합니다. 실험 결과 및 분석은 SpeaQ가 효과적으로 특화된 쿼리를 훈련시키며, 이로 인해 모델의 능력을 더 잘 활용하여 여러 VRD 모델과 벤치마크에서 추론 비용 증가 없이 일관된 성능 개선을 가져온다는 것을 보여줍니다. 코드는 https://github.com/mlvlab/SpeaQ 에서 제공됩니다.