랜덤 포레스트이는 여러 개의 의사결정 트리를 포함하는 다기능 알고리즘입니다. 이는 교체 표본 추출로 구성된 표본 세트를 사용하여 의사결정 트리를 훈련합니다. 의사결정 트리의 각 노드는 학습 중에 무작위 샘플링의 일부 특징만을 사용합니다.
속성을 기준으로 새로운 객체를 분류할 때, 랜덤 포레스트의 각 트리는 먼저 자체 분류 선택을 하고 이에 대해 "투표"를 합니다. 분류 문제의 경우, 포레스트의 출력은 가장 많은 표를 얻은 것이 됩니다. 회귀 문제의 경우, 포레스트의 출력은 의사결정 트리의 출력의 평균이 됩니다.
랜덤 포레스트 알고리즘에서 '랜덤'은 핵심이고, '포레스트'는 단지 조합 방법일 뿐입니다. 숲은 각 나무를 구성할 때 일반적으로 두세 겹의 무작위성을 적용하여 각 나무의 독립성을 보장합니다.
랜덤 포레스트 특징
- 장점: 정확도가 매우 높고, 과적합이 쉽지 않고, 노이즈 저항성이 우수하고, 특징 선택 없이 고차원 데이터를 처리할 수 있으며, 이산 데이터와 연속 데이터를 처리할 수 있고, 데이터 세트를 정규화할 필요가 없고, 학습 속도가 빠르고, 중요도 순위가 가변적이며, 병렬화가 쉽습니다.
- 단점: 매개변수가 복잡하고, 학습에 많은 공간과 시간이 필요하며, 모델의 일부 영역을 설명할 수 없습니다.
랜덤 포레스트 응용 프로그램
- 회귀 및 분류 작업 수행
- 데이터 탐색에서 누락된 값, 이상치 및 기타 중요한 단계를 처리하는 데 사용됩니다.
- 여러 개의 비효율적인 모델을 하나의 효율적인 모델로 결합하는 데 사용됩니다.
상위 단어: 배깅 알고리즘
하위 단어: 의사결정 트리
참고문헌
【1】https://blog.csdn.net/qq547276542/article/details/78304454
【2】https://blog.csdn.net/lishuandao/article/details/52555103
【3】https://en.wikipedia.org/wiki/Random_forest
【4】http://dataunion.org/23602.html