
초록
최근, 다층 퍼셉트론(MLP)만을 사용한 시각 아키텍처가 컴퓨터 비전 분야에서 많은 주목을 받고 있습니다. MLP 유사 모델은 수작업으로 설계된 컨볼루션 계층 없이도 단일 2D 이미지 분류에서 경쟁력 있는 성능을 달성하며, 귀납적 편향(inductive bias)이 적습니다. 본 연구에서는 뷰 기반의 3D 객체 인식 작업에 대한 MLP 기반 아키텍처의 효과성을 탐구합니다. 우리는 뷰 차원 간 패치들의 통신을 고려하여 공간 이동(spatial-shift) MLP 백본을 확장한 MLP 기반 아키텍처인 Round-Roll MLP (R$^2$-MLP)를 제시합니다. R$^2$-MLP는 뷰 차원을 따라 일부 채널들을 이동시키며, 인접한 뷰들 사이의 정보 교환을 촉진합니다. 우리는 다양한 측면에서의 감소 실험(ablation study)을 통해 ModelNet10 및 ModelNet40 데이터셋에서 R$^2$-MLP의 성능을 평가했습니다. 실험 결과는 개념적으로 단순한 구조로, 우리의 R$^2$-MLP가 기존 최신 방법들과 비교해 경쟁력 있는 성능을 보임을 확인하였습니다.