본문 바로가기
반응형

scikit learn2

[Statistics with Python] 04. 데이터 전처리 : Encoding, One-Hot Encoding (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 5장 Data Preprocessing 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 데이터 전처리가 필요한 이유 사이킷런의 ML 알고리즘을 쓰려면 다음과 같은 조건에 만족되는 데이터 셋이 필요하다. 결측치(Null)값이 허용되지 않는다 Null 값이 얼마 없으면 중앙값이나 평균값으로 대체한다 Null 값이 대다수라면 해당 피쳐값은 드롭하는 것도 좋다 중요도가 높은 피처는 유지시킨다 문자열도 허용되지 않는다. 문자열이 허용되지 않기때문에, 해당 피쳐값에 대한 인코딩(숫자로 변환)이 필요하다. 인코딩은 카테고리형(코드 값)으로 대부분 변환시킨다. 필요없는 피처는 드롭한다. 레이블 인코딩 문자열로 구성되어.. 2019. 8. 17.
[Statistics with Python] 03. Stratified K-fold, cross_val_score, GridSearchCV (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 4장 Model Selection (2) 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 저번 포스팅에서는 Cross-validation중에서 K-fold에 대한 개념과 구현 과정을 살펴보았다. 이번 포스팅에서는 K-fold를 구현하는데 좀 더 효율적인 방법을 지원해주는 라이브러리들을 살펴볼 것이다. Stratified K-fold 교차 검증 - Stratified K-fold 란? K fold는 random으로 데이터 셋을 split 해주는데, 이 때문에 레이블 값의 분포(비율)가 기존 데이터 full 셋에서의 분포(비율)와 크게 달라질 수도 있다. Stratified K-fold 교차 검증 방법은 원.. 2019. 8. 15.
반응형