11일 전

시각적 표현 학습을 인지적 이해를 통해 개선하기

Samyakh Tukra, Frederick Hoffman, Ken Chatfield
시각적 표현 학습을 인지적 이해를 통해 개선하기
초록

우리는 마스크된 자동인코더(MAE)에 대한 확장을 제안하며, 모델이 학습하는 표현 능력을 향상시키기 위해 시나리오 수준의 고차원 특징을 명시적으로 학습하도록 유도하는 방식을 도입한다. 이를 위해 (i) 생성된 이미지와 실제 이미지 간의 지각적 유사성 항목을 도입하고, (ii) 적대적 학습 문헌에서 유래한 여러 기법—다중 해상도 학습과 적응형 디스크리미너 증강—을 통합한다. 이러한 기법들의 조합은 단순한 픽셀 재구성 향상 외에도 이미지 내에서 더 높은 수준의 세부 정보를 효과적으로 포착하는 표현 능력을 제공함을 보여준다. 더욱 중요한 점은, 본 연구에서 제안하는 Perceptual MAE 방법이 하류 작업에서 기존 방법들을 능가하는 성능을 보임을 입증했다는 것이다. ImageNet-1K 데이터셋에서 선형 탐색(linear probing)을 통한 정확도는 78.1%에 달하며, 미세 조정(fine-tuning) 시에는 최대 88.1%까지 성능을 달성한다. 다른 하류 작업에 대해서도 유사한 결과를 얻었으며, 추가적인 사전 학습 모델이나 데이터를 사용하지 않고도 이를 달성하였다.

시각적 표현 학습을 인지적 이해를 통해 개선하기 | 최신 연구 논문 | HyperAI초신경