본문 바로가기

랜덤포리스트(Random Forest) 총정리(배깅 포함) 앙상블(Ensemble) 입문 드디어 앙상블(Ensemble) 모델이다. 앙상블이란 말 그대로 각기 다른 모델을 조합해 예측력을 향상시키는 것을 말한다. 책, Predictive Ananlytics에는 다양한 예측 사업들이 소개되는데 가장 높은 예측력을 가지는 모델은 단연 앙상블이었다. 어떤 모델이든 장점과 단점을 가지게 되는데 앙상블은 각각의 장점은 취하면서 단점은 보완할 수 있다. 때문에 앙상블은 최적의 단일 모델을 뛰어 넘는 새로운 예측 모델을 제시한다. 높은 예측력은 분명 훌륭한 모델의 가장 중요한 조건중 하나이다. 그러나 이 기준 역시 분명히 단점이 있다. 예를 들어, 1. 앙상블과 같이 예측력이 높은 모델은 해석에 어려움을 가진다. 또한 2. 다른 단일 모델에 비해 예측 시간이 많이 걸린다. .. 더보기
검정오차(test error)가 중요한 이유 Key Questions 예측모델을 빌딩하다 보면 다음의 Key Questions에 직면하게 된다. 1. 참값(f)이 선형적이지 않는데 예측은 선형회귀로 추정한다면 예측에 한계가 있지 않을까? 2. 가지고 있는 데이터를 잘 설명하는 모델을 찾았다고 해서 이 모델이 현재 미확보 데이터나 미래의 데이터도 잘 설명한다 어떻게 말할 수 있을까? 3. 보유한 데이터의 샘플에 따라 추정값의 변동이 크다면 어떤 모델을 사용해야 변동폭과 상관없이 사용할 수 있을까? 이 3 가지 질문은 이전 글 다중선형회귀 모델의 변수 선택을 위한 최종 Guideline에서 설명했고 그 해결책으로 교차검증을 제시했다. 그러나 상기 의문의 답의 이론적 배경을 이해한다면 향후 여러가지 예측 모델을 마스터한 후 모델 선택의 기로에 섰을 때 .. 더보기
회귀트리(regression tree)와 분류트리(classification tree) 예측 회귀트리(regression tree) 만드는 법(기본) 회귀트리 빌딩의 기본은 설명변수 X1, X2…Xp 기준의 값들로 J개의 다르고 겹치지 않은 집합 R1,R2…RJ로 분할하는 것이다. 수행 과정은 다음과 같다. 분할은 모든 Rj내 각각의 데이터와 예측값 Rj간의 RSS를 최소화하는 Rj를 구함으로써 수행된다. 이때 예측값 Rj란 j번째 Group 데이터들의 평균 반응변수 값이다. RSS를 최소화하는 각각의 Rj를 구하기 위해, 모든 경우의 수를 고려하는것은 불가능하다. 때문에 다중회귀 변수 선택법 중 전진 선택법과 같이 특정 단계에서 가장 좋은 분할(RSS 최소)을 선택 후 다음 단계로 넘어가는 방법을 취한다. 이를 재귀이진분할(recursive binary splitting)이라 한다. 말로 설명.. 더보기