
초록
CNN이 이미지 인식에서 거둔 큰 성공에 영감을 받아, 뷰 기반 방법은 3D 객체 이해를 위해 CNN을 투영된 뷰 모델링에 적용하여 우수한 성능을 달성하였습니다. 그러나 다중 뷰 CNN 모델은 서로 다른 뷰의 패치 간의 통신을 모델링할 수 없어 3D 객체 인식에서 효과가 제한적입니다. 최근 비전 트랜스포머가 이미지 인식에서 얻은 성공에 착안하여, 우리는 3D 객체 인식을 위한 다중 뷰 비전 트랜스포머 (MVT)를 제안합니다. 트랜스포머 블록 내의 각 패치 특성이 전역 수용 필드(global reception field)를 갖기 때문에, 이는 자연스럽게 서로 다른 뷰의 패치 간 통신을 실현합니다. 동시에, 이는 CNN 대응체와 비교해 훨씬 적은 귀납 편향(inductive bias)을 가지고 있습니다. 효과성과 효율성을 모두 고려하여, 우리의 MVT를 위한 전역-국소 구조를 개발하였습니다. ModelNet40 및 ModelNet10 두 공개 벤치마크에서 수행한 실험 결과, 우리의 MVT가 경쟁력 있는 성능을 보임을 입증하였습니다.