3달 전

저수준 비전을 위한 효율적인 Transformer 기반 이미지 사전 학습

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
저수준 비전을 위한 효율적인 Transformer 기반 이미지 사전 학습
초록

전처리 학습(pre-training)은 고수준 컴퓨터 비전 분야에서 수많은 최첨단 성과를 달성해왔으나, 전처리 학습이 이미지 처리 시스템 내에서 어떻게 작용하는지에 대한 연구는 거의 이루어지지 않았다. 본 논문에서는 트랜스포머 기반의 전처리 학습 전략을 설계하여 다양한 저수준 작업의 성능을 향상시켰다. 전처리 학습의 영향을 종합적으로 진단하기 위해, 내부 표현에 미치는 영향을 밝혀내는 체계적인 평가 도구를 개발하였다. 실험 결과, 전처리 학습이 저수준 작업에서 매우 다름을 보여주었다. 예를 들어, 초해상도 재구성(SR) 작업에서는 전처리 학습이 고층에 더 많은 국소 정보를 도입하여 성능 향상이 두드러졌지만, 노이즈 제거 작업에서는 내부 특징 표현에 거의 영향을 주지 않아 성능 향상이 제한적이었다. 또한, 다양한 전처리 학습 방법을 탐구한 결과, 다중 관련 작업을 통한 전처리 학습이 다른 대안들에 비해 더 효과적이고 데이터 효율적임을 확인하였다. 마지막으로, 전처리 학습의 효과를 다양한 데이터 규모와 모델 크기, 트랜스포머 기반 아키텍처와 CNN 기반 아키텍처 간의 비교를 통해 확장하여 분석하였다. 본 연구를 바탕으로 여러 저수준 작업에 대해 최첨단 모델을 성공적으로 개발하였다. 관련 코드는 https://github.com/fenglinglwb/EDT 에 공개되어 있다.