2달 전

장거리 그룹핑 트랜스포머를 이용한 다중 시점 3D 재구성

Yang, Liying ; Zhu, Zhenwei ; Lin, Xuxin ; Nong, Jian ; Liang, Yanyan
장거리 그룹핑 트랜스포머를 이용한 다중 시점 3D 재구성
초록

최근에 트랜스포머 네트워크는 많은 컴퓨터 비전 작업에서 우수한 성능을 보여주고 있습니다. 이러한 패러다임을 따르는 다중 뷰 3D 재구성 알고리즘에서는, 대량의 뷰 입력을 처리할 때 복잡한 이미지 토큰과 관련된 정보를 처리해야 하는데, 이로 인해 모델 학습이 극도로 어려워집니다. 정보 내용의 저주(Curse of Information Content)는 모델 학습의 극단적인 어려움으로 이어져, 이를 완화하기 위해 최근 방법들은 각 뷰를 나타내는 토큰 수를 압축하거나 다른 뷰 간의 토큰 주의 연산을 버리는 방식을 취하고 있습니다. 그러나 이러한 접근법은 성능에 부정적인 영향을 미치는 것이 명백합니다.따라서, 우리는 분할 및 정복 원칙에 기반한 장거리 그룹 주의(Long-Range Grouping Attention, LGA)를 제안합니다. 모든 뷰에서 온 토큰들은 별도의 주의 연산을 위해 그룹화됩니다. 각 그룹 내의 토큰들은 모든 뷰에서 샘플링되어 해당 뷰의 거시적 표현을 제공할 수 있으며, 서로 다른 그룹 간의 다양성이 특징 학습의 풍부성을 보장합니다. LGA를 사용하여 뷰 간 특징을 연결하고 표준 자기 주의(self-attention) 층을 사용하여 뷰 내 특징을 추출함으로써 효과적이고 효율적인 인코더를 구축할 수 있습니다. 또한, 상대적으로 고해상도의 복셀 생성을 위한 새로운 단계별 업샘플링 디코더도 설계되었습니다.위와 같은 방법론에 기반하여, 우리는 강력한 트랜스포머 기반 네트워크인 LRGT(Long-Range Grouping Transformer)를 구축하였습니다. ShapeNet에서 수행된 실험 결과는 우리의 방법이 다중 뷰 재구성에서 최고 수준(SOTA)의 정확도를 달성함을 확인해주었습니다. 코드는 https://github.com/LiyingCV/Long-Range-Grouping-Transformer 에서 제공될 예정입니다.

장거리 그룹핑 트랜스포머를 이용한 다중 시점 3D 재구성 | 최신 연구 논문 | HyperAI초신경