ROC Curve
TPR(True Positive Rate)은 실제 참(True)인데 참(Positive)이라 예측한 경우이며(진 양성)
FPR(False Positive Rate)은 실제 거짓(False)인데 참(Positive)이라 잘못 예측한 경우이다.(제 1종 오류)
ROC(Receiving Operating Characteristic) Curve의 x축은 FPR, y축은 TPR로 구성된다.
좋은 모형이라면 데이터가 True일 때 True라고 Positive 예측을 하는 것 뿐아니라 데이터가 False일 때 True라고 잘못된 Positive 예측을 하지 않아야 한다.
이항 Outcome(0 또는 1)의 경우, 회귀 모델이 확률을 제시하는데 어느 정도 확률 이상일 경우에 맞다고 할지를 결정하는 기준(Cutoff)이 필요하다. 또한 여러 모델 간에 어느 모델이 더 우수한지 판별할 기준이 필요하다.
따라서, 좋은 모델이면 FPR이 조금만 변해도 TPR이 급격히 상승하는 ROC를 가지게 된다.
AUC (Area Under the Curve)
좋은 모델인지 아닌지를 판단하기 위한 정량화를 AUC(Area Under Curve)라 한다. 이것은 ROC 곡선 밑의 넓이를 말한다.
(참고 : 아무리 좋은 모형이라도 Cutoff를 0%까지 내려 전체 데이터셋을 Positive로 예측하게 만들면
False/Positive도 1이 되어 (1, 1)을 곡선, 즉, AUC는 1이 된다.
AUC의 기준은 아래와 같다.
참고 블로그
http://gim.unmc.edu/dxtests/roc3.htm
http://blog.naver.com/hancury/220826864995
'R-PAGO 노트' 카테고리의 다른 글
UCLA 대학원 합격을 위한 필요 Spec.은? (0) | 2017.02.18 |
---|---|
회귀모델의 변수 선택(Variable Selection) 방법 (0) | 2017.02.15 |
Variation Inflation Factor(VIF) (0) | 2017.02.07 |
로지스틱 회귀 모델 (0) | 2017.02.06 |
이상값 진단(Diagnostics) (0) | 2017.02.06 |