본문 바로가기
반응형

Data Analysis/Statistics with Python7

[Statistics with Python] 07. 분류 알고리즘 - Decision Tree(결정 트리) 4절 분류(Classification) - 2장 결정트리(Decision Tree, 의사결정나무) 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 이번 포스팅에서는 ML 알고리즘 중 가장 직관적이고 대표적인 알고리즘을 스터디하려 한다. - 결정 트리(Decision Tree)란? 데이터에 있는 규칙을 학습 과정을 통해 자동으로 찾아내어 트리 형태의 분류 규칙을 만드는것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 되는지 그 성능을 크게 좌우한다. - 결정 트리 구조 도식화 및 구성 설명 결정 트리의 구조를 도식화하면 아래와 같이 나타낼 수 있다. 규칙 노드(Decision Node) : 분할의 규칙이 명시되어있는 규칙 조건이 담긴 노드이다.. 2019. 8. 31.
[Statistics with Python] 06. 분류 알고리즘 평가 방법 - F1-score, ROC, AUC 3절 Evaluation(평가) 방법 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 이번 포스팅에서는 저번 포스팅에 이어 분류 알고리즘을 평가 하는 다양한 방법 중 F1 score, ROC curve, AUC에 대해 알아보려 한다. 정확도(Accuracy) 오차 행렬(confusion matrix, 혼동 행렬) 정밀도(Precision)와 재현율(Recall) F1 score ROC curve와 AUC - F1 score F1 스코어는 정밀도와 재현율을 결합한 지표이다. 정밀도와 재현율이 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 지닌다. F1 스코어 계산법 F1 스코어 계산법은 아래 그림과 같다. F1 스코어 예시 1. Precision = 0.. 2019. 8. 17.
[Statistics with Python] 05. 분류 알고리즘 평가 방법 - Accuracy, precision, recall 3절 Evaluation(평가) 방법 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 저번 포스팅까지는 교차 검증에 관한 개념과 scikit learn에서 제공하는 다양한 k-fold 검증에 대해 알아보았다. 이번 포스팅에서는 "분류 알고리즘이 얼마나 정확한 예측을 하는가"에 대한 평가 방법에 대한 개념들을 알아보도록 할 것이다. (코딩은 뒤의 실습에서 자세히 다루려 한다.) 분류 알고리즘에 평가를 하는 다양한 방법이 있는데, 그 종류는 아래와 같으며 하나하나씩 짚어가며 설명해보려고 한다. 정확도(Accuracy) 오차 행렬(confusion matrix, 혼동 행렬) 정밀도(Precision)와 재현율(Recall) F1 score ROC curve와 AUC Acc.. 2019. 8. 17.
[Statistics with Python] 04. 데이터 전처리 : Encoding, One-Hot Encoding (with Scikit-learn) 2절 Scikit - learn을 통한 예측 알고리즘 실습해보기 5장 Data Preprocessing 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 데이터 전처리가 필요한 이유 사이킷런의 ML 알고리즘을 쓰려면 다음과 같은 조건에 만족되는 데이터 셋이 필요하다. 결측치(Null)값이 허용되지 않는다 Null 값이 얼마 없으면 중앙값이나 평균값으로 대체한다 Null 값이 대다수라면 해당 피쳐값은 드롭하는 것도 좋다 중요도가 높은 피처는 유지시킨다 문자열도 허용되지 않는다. 문자열이 허용되지 않기때문에, 해당 피쳐값에 대한 인코딩(숫자로 변환)이 필요하다. 인코딩은 카테고리형(코드 값)으로 대부분 변환시킨다. 필요없는 피처는 드롭한다. 레이블 인코딩 문자열로 구성되어.. 2019. 8. 17.
반응형