17일 전

데이터 효율적인 CNN 및 트랜스포머의 코어셋을 활용한 훈련: 안정성 관점에서

Animesh Gupta, Irtiza Hasan, Dilip K. Prasad, Deepak K. Gupta
데이터 효율적인 CNN 및 트랜스포머의 코어셋을 활용한 훈련: 안정성 관점에서
초록

코어셋 선택은 CNN의 학습 시간을 줄이는 가장 효과적인 방법 중 하나로 꼽히지만, 코어셋 크기의 변동, 데이터셋 및 모델의 선택에 따라 결과 모델이 어떻게 동작할지에 대한 이해는 여전히 제한적이다. 더불어 최근 트랜스포머 기반 모델로의 패러다임 전환을 고려할 때, 코어셋 선택이 이러한 모델의 성능에 어떤 영향을 미칠지에 대한 질문 역시 여전히 미해결 상태이다. 코어셋 선택 방법의 넓은 수용을 위해 해결되어야 할 여러 흥미로운 질문들이 존재하며, 본 논문은 이러한 질문들 중 일부에 답하고자 한다. 우리는 CNN과 트랜스포머에 대해 다양한 코어셋 선택 방법을 체계적으로 비교할 수 있는 벤치마킹 환경을 제안하고, 엄격한 실험을 수행하였다. 우리의 조사 결과, 특정 조건 하에서는 최신 기술(SOTA) 선택 방법보다 무작위로 부분집합을 선택하는 방식이 더 견고하고 안정적인 성능을 보임을 입증하였다. 기존의 데이터의 각 클래스에 걸쳐 균일하게 부분집합을 샘플링하는 전통적인 개념은 적절하지 않음을 보여주며, 오히려 각 클래스의 데이터 분포의 복잡성에 따라 샘플을 적응적으로 선택하는 것이 더 바람직하다는 점을 밝혔다. 트랜스포머는 일반적으로 대규모 데이터셋에서 사전 학습되며, 특정 타겟 데이터셋에 대해 매우 작은 코어셋 크기에서도 성능을 안정적으로 유지하는 데 도움이 된다는 점을 보여주었다. 또한 사전 학습이 이루어지지 않았거나, 사전 학습된 트랜스포머 모델이 자연 이미지가 아닌 데이터(예: 의료 이미지)에 사용되는 경우, 매우 작은 코어셋 크기에서도 CNN이 트랜스포머보다 더 우수한 일반화 성능을 보임을 확인하였다. 마지막으로, 적절한 사전 학습이 이루어지지 않은 환경에서는 CNN이 이미지 내 공간적으로 멀리 떨어진 객체들 간의 의미적 일관성을 더 잘 학습할 수 있으며, 이로 인해 거의 모든 코어셋 크기 조건에서 트랜스포머보다 우수한 성능을 나타낸다는 점을 실험적으로 입증하였다.

데이터 효율적인 CNN 및 트랜스포머의 코어셋을 활용한 훈련: 안정성 관점에서 | 최신 연구 논문 | HyperAI초신경