본문 바로가기
반응형

사이킷런3

[Statistics with Python] 04. 데이터 전처리 : Encoding, One-Hot Encoding (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 5장 Data Preprocessing 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 데이터 전처리가 필요한 이유 사이킷런의 ML 알고리즘을 쓰려면 다음과 같은 조건에 만족되는 데이터 셋이 필요하다. 결측치(Null)값이 허용되지 않는다 Null 값이 얼마 없으면 중앙값이나 평균값으로 대체한다 Null 값이 대다수라면 해당 피쳐값은 드롭하는 것도 좋다 중요도가 높은 피처는 유지시킨다 문자열도 허용되지 않는다. 문자열이 허용되지 않기때문에, 해당 피쳐값에 대한 인코딩(숫자로 변환)이 필요하다. 인코딩은 카테고리형(코드 값)으로 대부분 변환시킨다. 필요없는 피처는 드롭한다. 레이블 인코딩 문자열로 구성되어.. 2019. 8. 17.
[Statistics with Python] 03. Stratified K-fold, cross_val_score, GridSearchCV (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 4장 Model Selection (2) 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 저번 포스팅에서는 Cross-validation중에서 K-fold에 대한 개념과 구현 과정을 살펴보았다. 이번 포스팅에서는 K-fold를 구현하는데 좀 더 효율적인 방법을 지원해주는 라이브러리들을 살펴볼 것이다. Stratified K-fold 교차 검증 - Stratified K-fold 란? K fold는 random으로 데이터 셋을 split 해주는데, 이 때문에 레이블 값의 분포(비율)가 기존 데이터 full 셋에서의 분포(비율)와 크게 달라질 수도 있다. Stratified K-fold 교차 검증 방법은 원.. 2019. 8. 15.
[Statistics with Python] 02. 교차검증 Cross validation, K-fold (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 4장 Model Selection (1) - K-fold 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. Model을 선택하는데 있어 필요한 개념이 있는데, 바로 Cross-validation인 교차검증이다. 오늘의 포스팅에서는 Cross-validation(교차검증) 중에서도 K-fold 교차검증을 구현하는 방법에 대해서 자세히 살펴볼 예정이다. - Cross-validation(교차검증)이란? 교차검증이란 일반화 성능을 측정하기 위해 데이터를 여러번 반복해서 나누어 여러 모델을 학습하는 과정을 뜻한다. 대표적으로 KFold 교차검증이 존재한다. - K-fold 교차검증 데이터를 폴드라 부르는 비슷한 .. 2019. 8. 14.
반응형