3달 전

메모리 효율적인 양방향 트랜스포머를 활용한 긴 영상의 엔드 투 엔드 생성 모델링

Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong
메모리 효율적인 양방향 트랜스포머를 활용한 긴 영상의 엔드 투 엔드 생성 모델링
초록

자기회귀적 트랜스포머는 영상 생성 분야에서 놀라운 성과를 거두었다. 그러나 자기주의적 어텐션의 이차 복잡도로 인해 트랜스포머는 영상 내 장기적 의존성( long-term dependency )을 직접 학습하는 데 한계가 있으며, 자기회귀적 과정으로 인해 본질적으로 느린 추론 속도와 오류 전파 문제를 겪는다. 본 논문에서는 영상의 장기적 의존성을 엔드투엔드(end-to-end)로 학습하고 빠른 추론을 가능하게 하는 메모리 효율적인 양방향 트랜스포머(Memory-efficient Bidirectional Transformer, MeBT)를 제안한다. 최근의 양방향 트랜스포머 기술의 발전을 기반으로, 본 방법은 부분적으로 관측된 패치들로부터 영상의 전체 시공간 볼륨을 병렬로 복원하는 방식으로 작동한다. 제안된 트랜스포머는 관측 가능한 컨텍스트 토큰들을 고정된 수의 은닉 토큰으로 투영하고, 이를 통해 크로스 어텐션을 활용해 마스킹된 토큰들을 조건부로 복원함으로써 인코딩과 디코딩 모두에서 선형 시간 복잡도를 달성한다. 선형 복잡도와 양방향 모델링의 강점을 바탕으로, 본 방법은 자기회귀적 트랜스포머 대비 중간 길이의 영상 생성에서 품질과 속도 측면에서 두드러진 성능 향상을 보였다. 영상 및 코드는 https://sites.google.com/view/mebt-cvpr2023 에서 확인할 수 있다.