본문 바로가기

단일변수(univariate)의 이상값 측정 1. Boxplot을 이용한 방법 2. Grubb's test를 이용하는 방법 http://sosal.kr/945 더보기
능형(Ridge) 회귀, Lasso 이론 및 예제 검정MSE가 최소가 되는 모델을 찾아라! 그렇다. 우리의 목적은 언제나 검정오차(또는 검정MSE)가 최소인 모델을 찾는 것이다. 능형회귀와 Lasso는 이 목적때문에 탄생했다. 일종의 최적값(Optimization) 찾기이다. 편향(bias)과 분산(variance)사이의 최적점을 찾아 검정MSE가 최소가 되는 모델을 찾아주기 때문이다. 그러고 보면 지금까지의 다중회귀모델의 최적 모델은 검정MSE 관점에서는 좀 더 개선의 여지가 있었다는 말이 된다. 어떻게 만들까?능형회귀 식 Lasso 식 능형회귀와 Lasso는 다중회귀모델이 사용하는 최소제곱(RSS)에 추가 항을 더해 식을 완성한다. 각각의 계수 추정치 과는 상기식 각각을 최소로 하는 값이 된다. 우변의 두번째 항은 수축패널티(shrinkage pen.. 더보기
부스팅(Boosting) 이론과 예제 부스팅(Boosting) 알고리즘 부스팅(Boosting) 알고리즘부터 살펴보자.(상기 그림) 알다시피 배깅은 여러 Boostrap 샘플을 독립적으로 복원추출한 다수의 Boostrap 트리의 평균 또는 다수결을 통해 단일 예측모델을 만든다. 그러나 부스팅은 병렬의 독립된 트리가 아닌 하나의 트리를 순차적으로 업그레이드하여 완성한다. 상세 순서는 아래와 같다. 최초 추정값이며 훈련데이터 각각은 터미널노드 값으로 인식한다. 첫번째 시도(b=1) d개의 분할을 가진 트리를 만들어 상기 훈련데이터에 적합한다. 당연히 터미널도드수는 분할 수보다 1개 많은 d+1가 된다. 추정값 업그레이드: 이전 추정값에 첫번째 추정값에 수축파라미터()를 곱합 값을 더해 추정값을 업그레이드한다. 수축파라미터가 작을 수록 추정값은 .. 더보기