2달 전

Hiera: Bells-and-Whistles 없이 계층적 비전 트랜스포머

Ryali, Chaitanya ; Hu, Yuan-Ting ; Bolya, Daniel ; Wei, Chen ; Fan, Haoqi ; Huang, Po-Yao ; Aggarwal, Vaibhav ; Chowdhury, Arkabandhu ; Poursaeed, Omid ; Hoffman, Judy ; Malik, Jitendra ; Li, Yanghao ; Feichtenhofer, Christoph
Hiera: Bells-and-Whistles 없이 계층적 비전 트랜스포머
초록

현대의 계층적 비전 트랜스포머는 감독된 분류 성능 향상을 위해 여러 가지 비전 관련 구성 요소를 추가하였습니다. 이러한 구성 요소들은 효과적인 정확도와 매력적인 FLOP 수를 제공하지만, 추가된 복잡성으로 인해 실제로 이들 트랜스포머는 일반 ViT보다 더 느리게 작동합니다. 본 논문에서는 이러한 추가적인 부피가 불필요하다고 주장합니다. 강력한 시각적 사전 과제(MAE)로事前訓練을 수행함으로써, 최신 다단계 비전 트랜스포머에서 모든 부가 기능을 제거할 수 있으며, 정확도를 잃지 않을 수 있습니다. 이 과정에서 우리는 Hiera라는 매우 간단한 계층적 비전 트랜스포머를 생성하였는데, 이 모델은 이전 모델보다 더 높은 정확도를 보이면서 추론과 학습 중에도 상당히 빠릅니다. 우리는 이미지 및 비디오 인식에 관한 다양한 작업에서 Hiera를 평가하였습니다. 우리의 코드와 모델은 https://github.com/facebookresearch/hiera에서 이용 가능합니다.注:在“事前訓練を 수행함으로써”中,“事前訓練”是日语词汇,正确的韩语翻译应该是“사전 학습”. 因此,修正后的句子如下:본 논문에서는 이러한 추가적인 부피가 불필요하다고 주장합니다. 강력한 시각적 사전 과제(MAE)로 사전 학습을 수행함으로써, 최신 다단계 비전 트랜스포머에서 모든 부가 기능을 제거할 수 있으며, 정확도를 잃지 않을 수 있습니다. 이 과정에서 우리는 Hiera라는 매우 간단한 계층적 비전 트랜스포머를 생성하였는데, 이 모델은 이전 모델보다 더 높은 정확도를 보이면서 추론과 학습 중에도 상당히 빠릅니다. 우리는 이미지 및 비디오 인식에 관한 다양한 작업에서 Hiera를 평가하였습니다. 우리의 코드와 모델은 https://github.com/facebookresearch/hiera에서 이용 가능합니다.

Hiera: Bells-and-Whistles 없이 계층적 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경