본문 바로가기

Imbalance Data를 다루는 7가지 방법 1. 측정 Metric의 올바른 선택2. 훈련 데이터의 Resampling 1) Under Sampling - rare case를 고정하고 나머지 풍부한 데이터를 rare case 숫자만큼 뽑는 법 2) Over Sampling - 풍부한 비rare case를 제거하는 대신 rare case를 더 많이 재생산함 - 재생산 방법은 1) repetition, 2) bootstrapping 3) SMOTE Note: 1), 2)번을 혼합해서 사용키도 합. 3. k-folds cv를 적절히 사용하기 - over sampling과 같이 boostrap을 통해 rare case를 재생산 후 cv를 한다면 가상의 boostrap sample에 대한 과적합을 하는 것과 같음 - 따라서 cv를 먼저 한 후 bootstr.. 더보기
데이터보다 설명변수가 많을 때 어떻게 예측하는가? 유전자 정보로 암을 예측하는 법: Classifying Microarray Sample 암은 유전적인 이유가 큰 질병이다. 만약 암 환자의 증상과 유전자의 관계를 찾을 수 있다면 특정 유전자를 가진 사람의 암 발생 여부를 예측할 수 있을 것이다. 그러나 문제가 단순치 않다. 유전자 수가 너무 많다는 것(조사 가능한 암 환자대비) 때문이다. 암 환자수를 데이터수, 유전자를 설명변수라 한다면 많은 설명변수들 간에는 분명 공분산을 가지는 설명변수가 존재할 확률이 높을 것이다. 다시 말해 공분산을 최소화하기 위해 설명변수를 제거하는 수고 또한 필요하다. DMWR의 마지막 케이스인 “Microarray 샘플 분류하기”는 이런 문제점을 포함해 다음과 같이 요약된다. 데이터보다 설명변수의 수가 많다. (128개 vs.. 더보기
Entropy Based Discretization: 어떻게 연속변수를 구분 짓는가? Discretization: 연속변수를 구분 짓는 방법 인사팀 직원이 찾아와 현재 회사의 기준인 Toeic Specking 7단계 점수를 EPC 사업수행능력을 가장 잘 반영할 수 있는 우리 회사만의 영어 등급으로 재구분할 수 있는지를 문의해 왔다. 질문을 듣는 순간 떠오른 것이 Discretization!!!, 변수를 어떻게 효율적으로 구분하는 가이다. 현재 진행 중인 “아파트 청약 경쟁률 예측”에서 지하철역과 아파트간의 거리를 구분하는 경우가 있었는데 이 글의 주제인 “엔트로피”를 사용해 구분하지 않고 “부동산 상식”에 근거해 구분하였다. 구분하는 기준이 아무리 옳더라도 범용성과 간편성이 떨어지면 의미가 없기 때문이다. (아파트와 지하철역 거리를 351m를 기준으로 역세권과 비역세권을 나눈다 생각해보면.. 더보기