본문 바로가기

다중선형회귀 모델의 변수 선택을 위한 최종 Guideline 기존 변수 선택 방법의 한계 나는 이 글을 통해 다중회귀모델의 변수 선택의 최종적인 Guideline을 제시하고자 한다. 고백하자면 이 전글 회귀모델의 변수 선택 방법을 통해 표준 Guideline을 제시하고자 했었다. 또한 추가 글 UCLA 대학원 입학을 위한 Spec.을 통해 최적 모델이란 전체 데이터가 아닌 검정(test) 데이터에서의 오차가 최소되어야 함을 설명했다. 그러나 이런 방법들은 여전히 문제점을 가지고 있다. 따라서 이 글을 통해 1. 앞서 소개한 방법의 문제점을 보완하고 2.변수 선택시 우리만의 경쟁 우위를 가지는 Guideline을 제시하고자 한다. 특히, 설명 변수가 많을 경우에 이런 경쟁 우위는 더욱 두드러지게 될 것이다. 또한 앞서 사용된 함수, ‘step’ 대신 3.하나의 함수.. 더보기
여행 맛집 구글 지도 시각화 예전에 제주도 여행 지도 구현을 학습하다 한글 엔코딩 문제로 미완성인 상태로 넘어간 적이 있다. 이번 조윤선 장관 맛집 지도가 화제가 되면서 예전에 못다한 코드를 완성해 보고자 한다. 우선 제주도 음식점 맛집 List를 txt화일로 생성한다. 이 때 유의점은 저장시 한글이므로 반드시 엔코딩을 UTF-8로해야 한다. 제주 국제공항제주 돔베돈제주 공룡랜드제주 협재해수욕장제주 한림공원제주 유리의성제주 오설록티뮤지엄제주 테디베어뮤지엄제주 오성식당제주 중문관광단지제주 서귀포KAL호텔제주 주상절리제주 성산일출봉제주 우도제주 러브랜드제주 잠수함제주 용두암제주 섭지코지제주 산방산제주 신비의도로제주 외돌개제주 에코랜드 찾고자 하는 지명이 맞는지 최종 확인하기 위해서는 google.co.kr/maps에서 검색 후 지명 표.. 더보기
Z검정, t검정, 카이제곱 검정 아...정말 누가 "삶은 문제 해결의 연속"이라 했던가. 이 뻔한디 뻔한 카이제곱 검정이 엑셀에서 할 때와 R 프로그램에서 할 때 결과가 서로 달라 헤매고 말았다. 결국 정리가 필요 없다고 생각한 검정(Test)도 간략히 정리해 보고자 한다. Z 검정 검정(test)라는 것은 "특정 분포를 기준으로 했을 때 유의성이 있는가?"를 판별하는 것이다. 분포(distribution)라고하면 정규 분포 또는 표준 정규 분포를 우선 떠올릴 것이다. Z-검정은 이 표준 정규 분포를 기준으로 값의 유의성을 검증하는 것을 말한다. 만약 "두 집단의 차이가 유의한가"를 검증한다면, 두 집단이 모두 표준 정규 분포를 따른다는 전제아래 검증을 하는 것이다. t 검정 데이터가 충분히 있을 경우 데이터가 표준정규분포를 따른다는 .. 더보기