2달 전

WaveMix: 이미지 분석을 위한 효율적인 자원 활용 신경망

Pranav Jeevan; Kavitha Viswanathan; Anandu A S; Amit Sethi
WaveMix: 이미지 분석을 위한 효율적인 자원 활용 신경망
초록

우리는 컴퓨터 비전을 위한 새로운 신경망 구조인 WaveMix를 제안합니다. 이 구조는 자원 효율적이면서도 일반화되고 확장 가능합니다. WaveMix 네트워크는 훈련 가능한 매개변수, GPU RAM, 그리고 계산량을 줄이면서도 여러 작업에서 최신의 합성곱 신경망(CNN), 비전 트랜스포머(Vision Transformer), 그리고 토큰 믹서(Token Mixer)와 비교하여 유사하거나 더 우수한 정확도를 달성합니다. 이러한 효율성은 시간, 비용, 에너지 절약으로 이어질 수 있습니다. 이러한 성능 향상을 위해 우리는 WaveMix 블록에서 다중 수준의 2차원 이산 웨이블렛 변환(2D-DWT)을 사용하였으며, 이는 다음과 같은 장점을 가지고 있습니다: (1) 스케일 불변성(scale-invariance), 시프트 불변성(shift-invariance), 그리고 엣지의 희소성(sparseness of edges)이라는 세 가지 강력한 이미지 사전 정보(prior)를 기반으로 공간 정보를 재구성하며, (2) 매개변수를 추가하지 않고 손실 없이 수행되며, (3) 피처 맵(feature map)의 공간 크기를 줄여 전방 및 후방 연산에 필요한 메모리와 시간을 감소시키며, (4) 합성곱보다 더 빠르게 수용 영역(receptive field)을 확장시킵니다. 전체 아키텍처는 자기 유사(self-similar)하고 해상도를 유지하는 WaveMix 블록들의 쌓임으로 구성되어 있어 다양한 작업과 자원 가용성을 위한 아키텍처 유연성을 제공합니다. WaveMix는 Cityscapes 데이터셋에서 분할(segmentation) 작업에 대한 새로운 벤치마크를 설정하였으며, Galaxy 10 DECals, Places-365, 다섯 개의 EMNIST 데이터셋, 그리고 iNAT-mini에서 분류(classification) 작업에 대해 경쟁력을 갖춘 성능을 보였습니다. 또한 다른 벤치마크에서도 경쟁력 있는 성능을 보입니다. 우리의 코드와 학습된 모델은 공개적으로 이용 가능합니다.

WaveMix: 이미지 분석을 위한 효율적인 자원 활용 신경망 | 최신 연구 논문 | HyperAI초신경