2달 전

FuseFormer: 비디오 인페인팅을 위한 트랜스포머에서 세부 정보 융합

Rui Liu; Hanming Deng; Yangyi Huang; Xiaoyu Shi; Lewei Lu; Wenxiu Sun; Xiaogang Wang; Jifeng Dai; Hongsheng Li

초록

트랜스포머는 장거리 관계를 모델링하기 위한 강력하고 유연한 아키텍처로, 시각적 작업에서 널리 연구되어 왔습니다. 그러나 세부 표현이 필요한 비디오 인페인팅에 사용될 때, 기존 방법은 여전히 하드 패치 분할(hard patch splitting)로 인해 세부 부분에서 흐린 경계를 생성하는 문제를 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 새로운 소프트 스플릿(Soft Split)과 소프트 컴포지션(Soft Composition) 연산을 기반으로 한 미세 특성 융합(fine-grained feature fusion)을 통해 비디오 인페인팅을 위한 트랜스포머 모델인 퓨즈포머(FuseFormer)를 제안합니다. 소프트 스플릿은 주어진 중복 구간(overlapping interval)을 이용하여 특성 맵(feature map)을 여러 패치로 나눕니다. 반면에, 소프트 컴포지션은 서로 다른 패치들을 전체 특성 맵으로 연결(stitching)하며, 중복 영역의 픽셀들은 합산됩니다. 이러한 두 모듈은 트랜스포머 레이어 전의 토큰화(tokenization)와 트랜스포머 레이어 후의 디토큰화(de-tokenization) 과정에서 처음 사용되며, 토큰과 특성 간의 효과적인 매핑(mapping)을 가능하게 합니다. 따라서, 서브-패치(sub-patch) 수준의 정보 상호작용이 활성화되어 인접한 패치들 사이에서 더 효과적인 특성 전파가 이루어져 비디오의 구멍 영역(hole regions)에 생동감 있는 내용을 합성할 수 있게 됩니다.또한, 퓨즈포머에서는 소프트 컴포지션과 소프트 스플릿을 피드 포워드 네트워크(feed-forward network)에 세심하게 삽입하여 1D 선형 레이어(linear layers)가 2D 구조를 모델링할 수 있는 능력을 갖추도록 하였습니다. 그리고 서브-패치 수준의 특성 융합 능력이 더욱 강화되었습니다. 정량적 평가와 정성적 평가 모두에서 제안된 퓨즈포머는 최신 방법론들을 능가하며, 우리는 또한 그 우수성을 상세히 분석하였습니다.