11일 전
Transformer 기반 영상 인페인팅을 위한 광학 흐름 안내 활용
Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu

초록
영상 처리 분야에서 트랜스포머는 다중 헤드 자체 주의(MHSA) 메커니즘의 장점으로 인해 널리 사용되고 있다. 그러나 MHSA 메커니즘은 손상된 영역과 관련된 특징이 저하되면서 정확한 자기 주의를 유도하지 못하는 본질적인 어려움을 겪는다. 이를 '쿼리 저하(Query Degradation)'라고 하며, 이 문제는 먼저 광류(optical flow)를 복원한 후 이를 활용해 자기 주의를 안내하는 방식으로 완화할 수 있다. 이는 이전 연구에서 제안한 광류 지도형 트랜스포머(FGТ)를 통해 검증된 바 있다. 본 연구에서는 이 광류 지도 기법을 더욱 심화하여, 더 효과적이고 효율적인 영상 인페인팅을 실현하는 FGT++를 제안한다. 첫째, 국소적 집계와 에지 손실(edge loss)을 활용한 경량 광류 복원 네트워크를 설계하였다. 둘째, 쿼리 저하 문제를 해결하기 위해, 운동 불일치(motion discrepancy)를 이용해 특징을 강화하는 광류 지도형 특징 통합 모듈과, 광류에 따라 특징을 왜곡(warping)하는 광류 지도형 특징 전파 모듈을 제안하였다. 셋째, 트랜스포머를 시간적 및 공간적 차원으로 분리하여, 시간적 변형 가능한 MHSA 메커니즘을 통해 광류를 기반으로 토큰을 선택하고, 전역 토큰과 윈도우 내 국소 토큰을 이중 시점(MHSA) 메커니즘을 통해 결합하였다. 실험 결과 FGT++는 기존 영상 인페인팅 네트워크와 비교하여 정성적·정량적으로 우수한 성능을 보였다.