17일 전

ML-CrAIST: 다중 스케일 저주파-고주파 정보 기반 크로스 블랙 어텐션을 갖춘 이미지 초해상도 전환기

Alik Pramanick, Utsav Bheda, Arijit Sur
ML-CrAIST: 다중 스케일 저주파-고주파 정보 기반 크로스 블랙 어텐션을 갖춘 이미지 초해상도 전환기
초록

최근 들어 트랜스포머는 단일 이미지 초해상도 복원(task) 분야에서 큰 관심을 끌며 성능 향상에 상당한 기여를 하고 있다. 그러나 기존 모델들은 이미지에서 고수준의 의미적 세부 정보를 추출하는 네트워크의 강력한 능력에 크게 의존하면서, 다중 스케일 이미지 세부 정보 및 네트워크 내부의 중간 정보를 효과적으로 활용하지 못하는 한계를 지니고 있다. 또한 이미지의 고주파 영역이 저주파 영역에 비해 초해상도 복원 과정에서 훨씬 더 높은 복잡성을 보인다는 점이 관찰되었다. 본 연구는 다중 스케일에서 저주파-고주파 정보를 활용함으로써 이러한 문제를 해결하는 트랜스포머 기반 초해상도 아키텍처인 ML-CrAIST를 제안한다. 기존 대부분의 연구(공간적 또는 채널 기반)와 달리, 본 연구는 공간적 및 채널적 자기주의(self-attention)를 동시에 적용하여 공간 차원과 채널 차원에서의 픽셀 간 상호작용을 동시에 모델링함으로써 공간과 채널 축 간 내재된 상관관계를 효과적으로 활용한다. 또한 초해상도 작업에 적합한 크로스 어텐션 블록을 설계하여 저주파와 고주파 정보 간의 상관관계를 탐색하였다. 정량적 및 정성적 평가 결과, 제안하는 ML-CrAIST는 최신 초해상도 기법들을 능가함을 입증하였으며, 특히 Manga109 $\times$4에서 0.15 dB의 성능 향상을 달성하였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/Alik033/ML-CrAIST.