본문 바로가기

R-PAGO 노트

회귀모델의 변수 선택(Variable Selection) 방법 설명변수가 많은 데이터의 의미있는 변수를 선택하는 것은 논란의 여지가 많다. 일단, 설명변수를 선택하는 대표적인 방법은 다음의 3가지이다. 1.진진 선택법 (forward selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법 2.후진 소거법(backward elimination): 모든 변수가 포함된 모델에서 가장 도움이 되지 않는 변수(p값)를 하나씩 제거하는 방법 3.단계 선택법(stepwise selection): 모든 변수가 포함된 모델에서 출발하고 기준통계치에 가장 도움이 되지 않는 변수를 삭제하거나 모델에서 빠져있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가함. 이러한 변수의 추가 또는 제거를 반복함. [] 수 선택|작성자 RD.. 더보기
ROC Curve: 어떤 모델이 우수한가? ROC Curve TPR(True Positive Rate)은 실제 참(True)인데 참(Positive)이라 예측한 경우이며(진 양성)FPR(False Positive Rate)은 실제 거짓(False)인데 참(Positive)이라 잘못 예측한 경우이다.(제 1종 오류) ROC(Receiving Operating Characteristic) Curve의 x축은 FPR, y축은 TPR로 구성된다. 좋은 모형이라면 데이터가 True일 때 True라고 Positive 예측을 하는 것 뿐아니라 데이터가 False일 때 True라고 잘못된 Positive 예측을 하지 않아야 한다. 이항 Outcome(0 또는 1)의 경우, 회귀 모델이 확률을 제시하는데 어느 정도 확률 이상일 경우에 맞다고 할지를 결정하는 기준.. 더보기
Variation Inflation Factor(VIF) VIF 서로 상관관계가 있는 변수가 추가 되면(공선성) Variance가 증폭되어 회귀 계수가 커지는 특징이 있다.따라서 공선성은 회귀 계수 추정치의 정확성을 낮추므로 계수에 대한 표준오차가 증가하게 되고 이는 계수의 t통계량을 줄인다. 결과적으로 공선성이 존재하면 귀무가설이 기각될 확률이 줄어든다. VIF는 Squared Standard Error Inflation로, VIF가 큰 변수를 제거 한 뒤, 남아있는 변수 각각의 VIF 변화를 확인하여 이전 보다 VIF값의 차이가 큰 변수가 있다면 앞서 제거한 변수와 상관성이 높은 변수라 할 수 있다. 반대로 변화가 없는 변수라면 앞서 제거한 변수와 상관성은 낮다 할 수 있다. VIF의 가장 작은 값은 1이며 이때는 공선성이 전혀 없음을 나타낸다. 식은 아래.. 더보기
로지스틱 회귀 모델 대표적인 3가지 GLM(Generalized Linear Models) 1. Linear Model 2. Binomial and Binary Regression 3. Poisson Regression Binary 또는 Bernoulli: 0 또는 1의 2개 반응변수(Outcome)을 가지는 모델 (예: Win or Lose, Alive or Dead, Success or Failure) Binomial: 교환가능한 Binary 아웃컴을 가지는 공분산을 가진 데이터 집합 로지스틱 모델(Exponential Family Model) 로지스틱 모델을 이해하기 위해서는 로짓(Logit) 즉, 로그오즈비를 먼저 이해해야 한다. 오즈(Odds): Q. 도박을 할 때, 이길 확률과 질 확률을 안다면 얼마를 베팅해야 .. 더보기
이상값 진단(Diagnostics) 1. 이상값(Outlier) 진단 용어 이상값:주어진 설명변수의 값 xi에 상응하는 outcome(반응변수) 값 yi가 특이한 관측치를 말한다. 만약 xi가 보통 수준보다 클 경우엔 이상값이라기 보다 레버리지(Leverage)가 높은 관측치라 한다. Influence: 특정 값 포함이 회귀 곡선에 영향을 크게 줄 때 Influential라고 한다. 반대는 Lack Influential임단순히 yi가 높은 이상값이 아니라 레버리지가 높은 관측치가 포함될때 Influence가 커진다. rstandard(내면 스튜던트 잔차)잔차를 표준오차로 나눈 값. rstudent(외면스튜던트잔차)와 달리 i번째 값을 포함함 rstudent(외면 스튜던트 잔차)i번째 값 제거 한 rstandard 값 ※ 상기 식의 devi.. 더보기