UCLA 대학원 합격을 위한 필요 Spec.은? UCLA 대학원 합격을 위한 Spec.은?(로지스틱 회귀) GRE, GPA, Rank(출신 학부 대학의 명성)로 구성된 UCLA 대학원 입학생 자료 400개를 가져온다. 데이터는 총 400개로 합격자 127명, 불합격자 273명으로 구성되어 있다. 최종 목적인 ROC를 구하기 위해, 훈련 데이터(train)와 테스트 데이터(test)의 구분이 필요하다.UCLA 대학원 Report를 통해 10년간 합격률이 약 25%임을 확인할 수 있다. 따라서 테스트 데이터의 합격과 불합격 비율을 1:3로 하고 훈련 데이터는 1:1로 해야 타당하다. 결론적으로 훈련 데이터는 총 80개, 테스트 데이터는 320개를 구성된다. 이 경우 테스트 데이터의 합격률은 27%가 된다. 그러나 문제는 훈련 데이터 수가 많지 않아(80개.. 더보기 회귀모델의 변수 선택(Variable Selection) 방법 설명변수가 많은 데이터의 의미있는 변수를 선택하는 것은 논란의 여지가 많다. 일단, 설명변수를 선택하는 대표적인 방법은 다음의 3가지이다. 1.진진 선택법 (forward selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법 2.후진 소거법(backward elimination): 모든 변수가 포함된 모델에서 가장 도움이 되지 않는 변수(p값)를 하나씩 제거하는 방법 3.단계 선택법(stepwise selection): 모든 변수가 포함된 모델에서 출발하고 기준통계치에 가장 도움이 되지 않는 변수를 삭제하거나 모델에서 빠져있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가함. 이러한 변수의 추가 또는 제거를 반복함. [] 수 선택|작성자 RD.. 더보기 회귀분석 관련 각종 Site 모음 1. R을 이용한 회귀, KNN 설명 및 Visualizationhttp://blog.naver.com/ilustion 2. 회귀분석 관련 각종 Site 링크 포함http://blog.naver.com/vera0525/220877221315 3. 통계 관련 질문 & 대답(John Froreman 추천)https://stats.stackexchange.com/users/signup?ssrc=hero&returnurl=http%3a%2f%2fstats.stackexchange.com%2f 4. UCLA가 제공하는 R 예제와 Codehttp://www.ats.ucla.edu/stat/dae/ 5. Stats Geek (통계 관련 블로그)http://thestatsgeek.com/2014/02/08/r-squa.. 더보기 이전 1 2 3 4 5 6 7 다음