
초록
코어셋(Coreset)은 훈련 세트의 부분 집합으로, 이 코어셋을 사용하여 기계 학습 알고리즘이 전체 원본 데이터로 훈련되었을 때와 유사한 성능을 얻을 수 있다. 코어셋 발견은 훈련 속도를 개선하고 인간이 결과를 이해하는 데 도움을 줄 수 있기 때문에 활발하게 연구되고 있는 주제이다. 이전 연구들을 바탕으로 새로운 접근 방식이 제시되었다: 후보 코어셋들은 샘플을 추가하고 제거하면서 반복적으로 최적화된다. 훈련 세트의 크기를 줄이는 것과 결과의 품질 사이에 명백한 균형 조절 문제가 존재하므로, 다목적 진화 알고리즘(Multi-objective Evolutionary Algorithm)이 사용되어 집합 내 점들의 수와 분류 오류를 동시에 최소화한다. 비자명 벤치마크에서 수행된 실험 결과는 제안된 접근 방식이 최신 코어셋 발견 기술보다 더 낮은 오류와 보다 우수한 일반화 능력을 제공할 수 있음을 보여준다.