7일 전

시각 모델은 감독 없이 편집되지 않은 이미지로 사전 훈련할 때 더 강건하고 공정해진다

Priya Goyal, Quentin Duval, Isaac Seessel, Mathilde Caron, Ishan Misra, Levent Sagun, Armand Joulin, Piotr Bojanowski
시각 모델은 감독 없이 편집되지 않은 이미지로 사전 훈련할 때 더 강건하고 공정해진다
초록

차별적 자기지도 학습은 인터넷 상의 임의의 이미지 그룹을 활용해 모델을 훈련할 수 있게 하며, 이미지 간의 차이를 구분하는 데 도움이 되는 중요한 정보를 회복할 가능성을 제공한다. ImageNet에 적용할 경우, 이는 대부분의 객체 중심 하류 작업에서 감독 학습으로 얻은 특징과 유사한 성능을 보이는 객체 중심 특징을 생성한다. 본 연구에서는 이러한 능력을 활용하여 전 세계적으로 다양한 무한한 이미지 집합 내에 존재하는 임의의 중요한 정보와 더 잘 대표되는 정보를 학습할 수 있는지에 대해 의문을 제기한다. 이를 위해 우리는 데이터 사전 처리 없이, 어떤 특정한 학습 목표에 대한 사전 가정 없이 수십억 개의 임의 이미지 위에서 모델을 훈련한다. 대규모 데이터에 대한 과소적합을 방지하기 위해 모델 크기를 밀도 높은 100억 파라미터 수준까지 확장한다. 우리는 공정성, 분포 변화에 대한 강건성, 지리적 다양성, 미세한 인식, 이미지 복제 탐지, 다양한 이미지 분류 데이터셋을 포함한 50개 이상의 벤치마크에서 모델 성능을 철저히 분석하고 검증한다. 그 결과로 도출된 모델은 의미 정보를 잘 포착할 뿐만 아니라 예술적 스타일 정보도 포착하며, 시각적 콘텐츠만을 기반으로 지리적 위치 정보와 다국어 단어 임베딩과 같은 중요한 정보를 학습한다. 더욱 중요한 점은, 이러한 모델이 감독 학습 모델이나 ImageNet과 같은 객체 중심 데이터셋에서 훈련된 모델보다 더 강건하고, 공정하며, 해로움이 적고 편향이 적다는 점을 발견했다.

시각 모델은 감독 없이 편집되지 않은 이미지로 사전 훈련할 때 더 강건하고 공정해진다 | 최신 연구 논문 | HyperAI초신경