11일 전

DropMAE: 시공간 주의력 드롭아웃을 활용한 마스킹 자동부호화기를 통한 표현 학습으로 시간적 매칭 작업에 적용

Qiangqiang Wu, Tianyu Yang, Ziquan Liu, Wei Lin, Baoyuan Wu, Antoni B. Chan
DropMAE: 시공간 주의력 드롭아웃을 활용한 마스킹 자동부호화기를 통한 표현 학습으로 시간적 매칭 작업에 적용
초록

본 논문은 다양한 시간적 매칭 기반 하류 작업을 위한 마스킹 자동에코더(MAE) 영상 사전 학습에 대해 연구한다. 이는 영상 객체 추적(VOT), 영상 객체 분할(VOS)과 같은 객체 수준의 추적 작업, 자기지도 학습 기반 시각적 대응 관계 학습, 광학 흐름 추정 및 장기적 점 추적과 같은 밀도 높은 추적 작업, 그리고 3D 포인트 클라우드 추적을 포함한다. 구체적으로, 본 연구는 다양한 하류 추적 작업에서 시간적 매칭 능력을 향상시키기 위해 일반적인 표현을 제공하는 것을 목표로 한다. 이를 달성하기 위해, 우리는 기존 MAE의 단순한 확장 방식(영상의 프레임 패치를 무작위로 마스킹하고 프레임 픽셀을 재구성)이 프레임 재구성 시 공간적 정보에 크게 의존하면서 시간적 관계를 무시함으로써 최적의 시간적 매칭 표현을 도출하지 못한다는 점을 발견하였다. 이를 완화하기 위해, 프레임 재구성 과정에서 공간적 주의(attention) 드롭아웃을 적응적으로 수행하는 DropMAE를 제안한다. 이는 영상 내 시간적 대응 관계 학습을 촉진하는 데 기여한다. DropMAE를 통해 다음과 같은 중요한 발견을 하였다: 1) DropMAE는 강력하고 효율적인 시간적 매칭 학습자로서, ImageNet 기반 MAE보다 2배 빠른 사전 학습 속도를 기반으로 매칭 기반 작업에서 더 우수한 미세 조정 성능을 달성한다. 2) DropMAE는 다양한 추적 작업에 효과적이며, VOT 및 VOS와 같은 객체 수준의 매칭 작업, 광학 흐름 추정 및 임의의 점 추적(TAP)과 같은 밀도 높은 추적 작업, 그리고 포인트 클라우드 데이터의 다른 모달리티에서의 3D 추적에도 적용 가능하다. 현재까지는 존재하지 않던 상황에서, 본 연구는 다양한 하류 추적 작업에 대응하는 ViT 기반 추적기들을 구축하였으며, 사전 학습된 DropMAE 모델은 추가 수정 없이 이들 ViT 기반 추적기로 직접 로드되어 미세 조정이 가능하다. 6개의 하류 추적 작업에 대한 실험 결과는 DropMAE가 다양한 추적 작업을 위한 일반적인 사전 학습 표현으로서의 효과성을 입증한다.

DropMAE: 시공간 주의력 드롭아웃을 활용한 마스킹 자동부호화기를 통한 표현 학습으로 시간적 매칭 작업에 적용 | 최신 연구 논문 | HyperAI초신경