
초록
트랜스포머 아키텍처는 기계 학습 분야에서 보편적으로 사용되고 있지만, 3D 형태 인식에 적용하는 것은 쉽지 않습니다. 이는 트랜스포머의 이차 계산 복잡도로 인해 입력 포인트 집합이 커질수록 자기 주의(self-attention) 연산자가 효율성이 떨어지기 때문입니다. 또한, 우리는 주의 메커니즘이 전역적으로 개별 포인트 간 유용한 연결을 찾는 데 어려움을 겪고 있다는 것을 발견했습니다. 이러한 문제를 완화하기 위해, 우리는 로컬 및 글로벌 주의 메커니즘을 결합하여 개별 포인트와 포인트 패치가 서로 효과적으로 주의를 기울일 수 있도록 하는 두 단계의 포인트 트랜스포머-인-트랜스포머(Point-TnT) 접근법을 제안합니다. 형태 분류 실험 결과, 이 접근법은 베이스라인 트랜스포머보다 후속 작업에 더 유용한 특징을 제공하면서도 더 효율적인 계산 성능을 보임을 확인할 수 있었습니다. 또한, 우리는 이 방법을 장면 재구성에 대한 특징 매칭에도 확장하여 기존 장면 재구성 파이프라인과 함께 사용될 수 있음을 보여주었습니다.