2달 전

이미지 트랜스포머

Niki Parmar; Ashish Vaswani; Jakob Uszkoreit; Łukasz Kaiser; Noam Shazeer; Alexander Ku; Dustin Tran
이미지 트랜스포머
초록

이미지 생성은 성공적으로 자기회귀 시퀀스 생성 또는 변환 문제로 정식화되었습니다. 최근 연구에서는 자기-주목(self-attention)이 텍스트 시퀀스를 모델링하는 효과적인 방법임을 보여주었습니다. 본 연구에서는 이러한 자기-주목 기반의 최근 제안된 모델 구조인 트랜스포머(Transformer)를 이미지 생성의 시퀀스 모델링 정식화에 일반화하였습니다. 이는 자기-주목 메커니즘을 로컬 이웃(local neighborhoods)에만 주목하도록 제한함으로써, 전형적인 합성곱 신경망보다 각 층에서 훨씬 더 큰 수용 영역(receptive fields)을 유지하면서도 실제로 처리할 수 있는 이미지 크기를 크게 증가시켰습니다. 개념적으로 간단하지만, 우리의 생성 모델은 ImageNet에서 이미지 생성의 현재 최고 수준을 크게 능가하며, ImageNet에서 가장 우수한 공개된 음의 로그尤似度(negative log-likelihood)를 3.83에서 3.77로 개선하였습니다. 또한 우리는 우리 아키텍처의 인코더-디코더 구성(encoder-decoder configuration)을 적용하여 큰 배율 비율(magnification ratio)에서 이미지 초해상도(super-resolution) 결과를 제시합니다. 인간 평가 연구에서, 우리의 초해상도 모델이 생성한 이미지는 이전 최고 수준보다 세 배 더 자주 인간 관찰자를 속이는 것으로 나타났습니다.注:在“음의 로그尤似度”中,“尤似度”不是正确的韩语词汇,正确的翻译应该是“음의 로그 가능도(negative log-likelihood)”。修正后的翻译如下:이미지 생성은 성공적으로 자기회귀 시퀀스 생성 또는 변환 문제로 정식화되었습니다. 최근 연구에서는 자기-주목(self-attention)이 텍스트 시퀀스를 모델링하는 효과적인 방법임을 보여주었습니다. 본 연구에서는 이러한 자기-주목 기반의 최근 제안된 모델 구조인 트랜스포머(Transformer)를 이미지 생성의 시퀀스 모델링 정식화에 일반화하였습니다. 이는 자기-주목 메커니즘을 로컬 이웃(local neighborhoods)에만 주목하도록 제한함으로써, 전형적인 합성곱 신경망보다 각 층에서 훨씬 더 큰 수용 영역(receptive fields)을 유지하면서도 실제로 처리할 수 있는 이미지 크기를 크게 증가시켰습니다. 개념적으로 간단하지만, 우리의 생성 모델은 ImageNet에서 이미지 생성의 현재 최고 수준을 크게 능가하며, ImageNet에서 가장 우수한 공개된 음의 로그 가능도(negative log-likelihood)를 3.83에서 3.77로 개선하였습니다. 또한 우리는 우리 아키텍처의 인코더-디코더 구성(encoder-decoder configuration)을 적용하여 큰 배율 비율(magnification ratio)에서 이미지 초해상도(super-resolution) 결과를 제시합니다. 인간 평가 연구에서, 우리의 초해상도 모델이 생성한 이미지는 이전 최고 수준보다 세 배 더 자주 인간 관찰자를 속이는 것으로 나타났습니다.