17일 전

사전 훈련 규모가 자연 및 의료용 X선 흉부 이미지에 대한 도메인 내 및 도메인 간 전체 및 소량 샘플 전이 학습에 미치는 영향

Mehdi Cherti, Jenia Jitsev
사전 훈련 규모가 자연 및 의료용 X선 흉부 이미지에 대한 도메인 내 및 도메인 간 전체 및 소량 샘플 전이 학습에 미치는 영향
초록

언어 모델링 및 자연 이미지 인식 분야에서 수행된 광범위한 연구들에 따르면, 사전 훈련 과정에서 모델 크기, 데이터 규모, 계산 자원의 증가가 모델의 일반화 능력과 전이 학습 성능을 크게 향상시킨다는 것이 입증되었다. 그러나 대부분의 규모 확대 효과에 대한 연구들은 소스 데이터와 타겟 데이터가 유사한 도메인 내에서 수행되었으며, 도메인 내 설정(in-domain setting)에 국한되어 있었다. 본 연구에서는 도메인 내 및 도메인 간(out-of-domain) 설정에서 전체 전이(fully-shot transfer) 및 소량 전이(few-shot transfer)를 수행할 때 규모 확대의 영향을 탐구하기 위해, 처음으로 대규모로 공개된 의료 X선 흉부 영상 데이터셋들을 결합하여 자연 이미지 분야에서 사전 훈련에 흔히 사용되는 ImageNet-1k 수준의 의료 영상 도메인 규모를 달성하였다. 이후, 네트워크 크기와 소스 데이터의 규모 및 도메인(대규모 자연 이미지 데이터셋(ImageNet-1k/21k) 또는 대규모 의료 흉부 X선 데이터셋)을 변화시키며 감독 기반 사전 훈련을 수행하고, 사전 훈련된 모델을 다양한 자연 이미지 또는 의료 타겟으로 전이하였다. 그 결과, 도메인 내 전이(Natural-Natural 및 Medical-Medical)에서는 규모 확대에 따른 강력한 성능 향상이 관측되었다. 반면, 도메인 간 전이(Natural-Medical)의 경우, 전체 전이 설정에서는 대규모 X선 타겟에 대해 규모 확대에 따른 성능 향상이 나타났지만, 소규모 타겟이나 소량 전이 설정에서는 이러한 향상이 관측되지 않았다. 특히 주목할 점은, 매우 대규모의 자연 이미지 데이터셋(ImageNet-21k)으로 사전 훈련된 대규모 네트워크가, 가장 큰 가용 의료 X선 데이터셋으로 사전 훈련된 네트워크와 비교하여 대규모 X선 타겟으로 전이할 때 동등하거나 더 우수한 성능을 보였다는 것이다. 결론적으로, 사전 훈련 단계에서 모델 크기와 일반적인, 도메인에 구애받지 않는 자연 이미지 소스 데이터의 규모를 크게 증가시키는 것은, 실질적으로 확보하기 어려운 대규모 의료 도메인 특화 소스 데이터에 의존하지 않고도 고품질의 도메인 간 전이를 가능하게 할 수 있음을 시사한다.

사전 훈련 규모가 자연 및 의료용 X선 흉부 이미지에 대한 도메인 내 및 도메인 간 전체 및 소량 샘플 전이 학습에 미치는 영향 | 최신 연구 논문 | HyperAI초신경