기능 선택
특징 선택은 모델 구축을 위해 가장 일관되고 중복되지 않으며 관련성이 높은 특징 하위 집합을 분리하는 프로세스입니다. 데이터 세트의 크기와 종류가 계속 증가함에 따라, 데이터 세트의 크기를 체계적으로 줄이는 것이 중요합니다. 특징 선택의 주요 목표는 예측 모델의 성능을 개선하고 모델링의 계산 비용을 줄이는 것입니다.
특징 선택의 사용 예
특징 선택은 텍스트 분류, 원격 감지, 이미지 검색, 마이크로어레이 분석, 질량 분석, 시퀀스 분석 등 다양한 실용적 응용 분야에 효과적인 전처리 기술입니다.
실제 기능 선택의 예는 다음과 같습니다.
- 유방촬영 영상 분석
- 범죄 행동 모델링
- 게놈 데이터 분석
- 플랫폼 모니터링
- 기계적 무결성 평가
- 텍스트 클러스터링
- 초분광 이미지 분류
- 시퀀스 분석
기능 선택의 중요성
머신 러닝 과정에서 특징 선택을 사용하면 프로세스의 정확성을 높일 수 있습니다. 또한 가장 중요한 변수를 선택하고 중복되고 관련성이 없는 변수를 제거함으로써 알고리즘의 예측 능력을 향상시킵니다. 이것이 바로 기능 선택이 중요한 이유입니다.
특징 선택의 세 가지 주요 이점은 다음과 같습니다.
- 과적합 줄이기
중복된 데이터는 노이즈에 기반한 결정을 내릴 가능성이 낮다는 것을 의미합니다. - 정확도 향상
오해의 소지가 적은 데이터는 모델링 정확도가 더 높다는 것을 의미합니다. - 훈련 시간을 줄이세요
데이터가 적을수록 알고리즘이 더 빨라집니다.
특징 선택 방법
특징 선택 알고리즘은 지도 학습과 비지도 학습으로 구분됩니다. 지도 학습은 레이블이 지정된 데이터에 사용할 수 있고, 비지도 학습은 레이블이 지정되지 않은 데이터에 사용할 수 있습니다. 비지도 학습 기술은 필터 방법, 래퍼 방법, 임베딩 방법 또는 하이브리드 방법으로 분류됩니다.
- 필터 방법: 필터링 방법은 특성 선택 교차 검증 성능이 아닌 통계를 기반으로 특성을 선택합니다. 선택된 메트릭을 적용하여 관련 없는 속성을 식별하고 재귀적 기능 선택을 수행합니다. 필터링 방법은 단변수 필터링일 수 있습니다. 단변수 필터링은 최종적으로 선택된 기능 하위 집합을 알려주는 순서가 매겨진 기능 목록을 작성하는 방법이고, 다변수 필터링은 전체 기능 집합의 관련성을 평가하여 중복되고 관련성이 없는 기능을 식별하는 방법입니다.
- 포장 방법: 래퍼 기능 선택 방법은 기능 집합의 선택을 검색 문제로 취급하고, 기능 조합을 준비, 평가하고 다른 기능 조합과 비교하여 기능의 품질을 평가합니다. 이 방법은 변수 간의 가능한 상호작용을 감지하는 데 도움이 됩니다. 래퍼 방법은 선택에 사용된 클러스터링 알고리즘의 결과 품질을 개선하는 데 도움이 되는 기능의 하위 집합에 초점을 맞춥니다. 대표적인 예로는 보루타(Boruta) 특징 선택과 전방 특징 선택이 있습니다.
- 임베디드 방식: 내장형 기능 선택 방법은 학습 알고리즘의 일부로 기능 선택 머신 러닝 알고리즘을 통합하여 분류와 기능 선택이 동시에 수행됩니다. 모델 학습 과정의 각 반복에 가장 큰 기여를 하는 기능을 신중하게 추출합니다. 랜덤 포레스트 특징 선택, 의사결정 트리 특징 선택, LASSO 특징 선택은 일반적인 임베딩 방법입니다.
참고문헌
【1】https://www.heavy.ai/technical-glossary/feature-selection