17일 전

다중 다층 주의(Multi-manifold Attention)를 활용한 비전 트랜스포머

Dimitrios Konstantinidis, Ilias Papastratis, Kosmas Dimitropoulos, Petros Daras
다중 다층 주의(Multi-manifold Attention)를 활용한 비전 트랜스포머
초록

현재 비전 트랜스포머는 이미지 분류 및 동작 인식과 같은 여러 컴퓨터 비전 과제에서 최상의 성능을 보이며 매우 인기 있는 모델로 부상하고 있다. 비록 고도로 설명력 있는 패치 임베딩과 계층적 구조를 통해 성능이 크게 향상되었지만, 트랜스포머의 자기주의(attention) 맵을 보다 정교하게 개선하기 위해 추가적인 데이터 표현을 활용하는 연구는 여전히 제한적이다. 이 문제를 해결하기 위해 본 연구에서는 기존 트랜스포머의 기본 자기주의를 대체할 수 있는 새로운 주의 메커니즘인 다 다양체 다헤드 주의(Multi-Manifold Multihead Attention)를 제안한다. 제안된 메커니즘은 입력 공간을 유클리드(Euclidean), 대칭 양의 정부호(Symmetric Positive Definite), 그라스만(Grassmann)이라는 세 가지 서로 다른 다양체(manifold)로 모델링함으로써, 입력 데이터의 다양한 통계적 및 기하학적 특성을 활용하여 매우 설명력 있는 주의 맵을 계산할 수 있다. 이를 통해 제안된 주의 메커니즘은 비전 트랜스포머가 이미지의 중요한 외형, 색상 및 질감 특징에 더 집중할 수 있도록 유도하며, 잘 알려진 데이터셋에서 수행된 실험 결과를 통해 분류 및 세분화 성능이 향상됨을 입증하였다.

다중 다층 주의(Multi-manifold Attention)를 활용한 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경