17일 전

Astroformer: 분류 작업에서 더 많은 데이터가 반드시 필요한 것은 아님

Rishit Dagli
Astroformer: 분류 작업에서 더 많은 데이터가 반드시 필요한 것은 아님
초록

자연어 처리 및 컴퓨터 비전과 같은 분야의 최신 발전은 방대한 양의 레이블 없음 또는 부분적으로 레이블이 붙은 데이터를 활용해 훈련된 복잡하고 거대한 모델에 의존하고 있다. 이러한 최첨단 기법을 자원 제약 환경에서 훈련하거나 배포하는 것은 여전히 큰 도전 과제이다. 은하의 형태학은 은하가 형성되고 진화하는 과정을 이해하는 데 핵심적인 역할을 한다. 현대 천문학 조사에서 물리적 정보를 효과적으로 추출하기 위해서는 은하 형태를 분류하는 효율적인 방법이 필요하다. 본 논문에서는 적은 양의 데이터로부터 학습할 수 있는 Astroformer이라는 새로운 방법을 제안한다. 우리는 CoAtNet과 MaxViT의 성공 사례에서 많은 영감을 얻어, 트랜스포머-컨볼루션 하이브리드 아키텍처를 사용한다. 구체적으로, 네트워크에 새로운 스택 설계를 적용하고, 상대적 자기주의(self-attention) 레이어를 다른 방식으로 구성하며, 정교한 데이터 증강 및 정규화 기법과 결합한다. 제안한 방법은 Galaxy10 DECals 데이터셋에서 은하 형태를 예측하는 과제에 대해 새로운 최고 성능을 달성하였다. 이 데이터셋은 17,736개의 레이블이 붙은 이미지로 구성되어 있으며, 상위-1 정확도(top-1 accuracy)가 94.86%에 달해 기존 최고 성능 대비 4.62% 향상시켰다. 또한 본 방법은 CIFAR-100과 Tiny ImageNet에서도 새로운 최고 성능을 기록하였다. 추가적으로, 대규모 데이터셋에서 사용되는 모델 및 훈련 방법이 낮은 데이터 환경에서는 종종 성능이 저하됨을 발견하였다.

Astroformer: 분류 작업에서 더 많은 데이터가 반드시 필요한 것은 아님 | 최신 연구 논문 | HyperAI초신경