2달 전

MAXIM: 다축 MLP를 이용한 이미지 처리

Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li
MAXIM: 다축 MLP를 이용한 이미지 처리
초록

최근 트랜스포머와 다층 퍼셉트론(MLP) 모델의 발전은 컴퓨터 비전 작업을 위한 새로운 네트워크 아키텍처 설계를 제공하고 있습니다. 이러한 모델들은 이미지 인식 등 많은 비전 작업에서 효과성을 입증했지만, 저레벨 비전에 적용하는 데 여전히 도전과제가 남아 있습니다. 고해상도 이미지를 지원하는 유연성 부족과 지역 주의 메커니즘의 제한이 아마도 주요 병목 요인일 것입니다. 본 연구에서는 이미지 처리 작업을 위한 효율적이고 유연한 일반적인 비전 백본으로 활용할 수 있는 다축 MLP 기반 아키텍처인 MAXIM을 소개합니다. MAXIM은 UNet 형태의 계층 구조를 사용하며, 공간 게이팅 MLP에 의해 가능해진 장거리 상호작용을 지원합니다. 특히, MAXIM은 두 가지 MLP 기반 구성 요소를 포함하고 있습니다: 로컬 및 글로벌 시각 정보를 효율적이고 확장 가능하게 혼합할 수 있는 다축 게이팅 MLP와 크로스 어텐션의 대안인 크로스 게이팅 블록입니다. 크로스 게이팅 블록은 크로스 특징 조건부 처리를 담당합니다. 이 두 모듈 모두 MLP에만 기반하고 있지만, 이미지 처리에 바람직한 두 가지 속성인 '글로벌'과 '완전 컨볼루셔널'에서도 이점을 얻습니다. 우리의 광범위한 실험 결과는 제안된 MAXIM 모델이 노이즈 제거, 블러 제거, 강수 제거, 안개 제거 및 향상 등 다양한 이미지 처리 작업에서 10여 개 벤치마크 이상에서 최고 성능을 달성함을 보여줍니다. 이는 경쟁력 있는 모델들보다 적거나 유사한 수의 매개변수와 FLOPs를 필요로 합니다. 소스 코드와 학습된 모델은 \url{https://github.com/google-research/maxim}에서 제공될 예정입니다.