11일 전

RGB-이벤트 트랜스포머 트래커를 위한 교차모달 수직 고계 증강

Zhiyu Zhu, Junhui Hou, Dapeng Oliver Wu
RGB-이벤트 트랜스포머 트래커를 위한 교차모달 수직 고계 증강
초록

이 논문은 RGB 영상과 이벤트 데이터 간의 다중모달 개체 추적 문제를 다룬다. 복잡한 다중모달 융합 네트워크를 구축하는 대신, 사전 훈련된 비전 트랜스포머(ViT)의 높은 잠재력을 탐구한다. 특히, 두 모달 간의 큰 분포 차이를 극복하도록 ViT를 유도하는 플러그 앤 플레이(Plug-and-Play) 훈련 증강 기법을 정교하게 탐색하며, 이를 통해 다중모달 정보 간의 포괄적인 상호작용을 가능하게 하고, 추적 성능을 향상시킨다. 구체적으로, 일부 토큰의 특정 모달을 무작위로 마스킹하는 마스크 모델링 전략을 제안한다. 이는 서로 다른 모달의 토큰들이 능동적으로 상호작용하도록 유도한다. 마스킹 전략으로 인해 발생할 수 있는 네트워크 진동을 완화하고, 이 효과를 더욱 강화하기 위해, 주의 행렬(attention matrix)을 정규화하기 위한 이론적 근거를 바탕으로 직교적 고계수 손실(orthogonal high-rank loss)을 제안한다. 광범위한 실험을 통해 제안한 플러그 앤 플레이 훈련 증강 기법이, 추적 정밀도와 성공률 측면에서 최첨단의 싱글스트림 및 듀얼스트림 추적기의 성능을 크게 향상시킬 수 있음을 입증한다. 본 연구의 새로운 시각과 발견은 강력한 사전 훈련된 ViT를 활용하여 다중모달 데이터를 모델링하는 분야에 중요한 통찰을 제공할 것으로 기대된다. 코드는 공개될 예정이다.

RGB-이벤트 트랜스포머 트래커를 위한 교차모달 수직 고계 증강 | 최신 연구 논문 | HyperAI초신경