[Statistics with Python] 01. Python을 활용한 머신러닝 시작하기

Strat learning "Machine Learning with Python"

파이썬을 활용하여 머신러닝 공부를 하면서 포스팅을 시작해보기로 했다.

- 학습 참고 도서 : [위키북스- 파이썬 머신러닝 완벽 가이드]

앞으로 포스팅에 참고하여 공부할 책으로 [위키북스- 파이썬 머신러닝 완벽 가이드]를 선택하였다.

일단, 데이터 분석(머신러닝)을 처음 공부하는 사람들을 위해 책 내에서 이론을 충분히 설명해주면서 소스 코드를 단계적으로 설명해주는 것이 좋았다.

머신러닝의 바이블이라고 칭해지는 [O'Reilly- Hands-on Machine Learning]과 비교하여 좀 더 개념을 이해하기 쉽게 설명해 놓았기 때문에 개인적으로는 이 책을 추천한다. 수학적인 개념을 더 알고싶다면 O'Reilly 책을 참고하는 것이 더 유용할 듯 싶다.

(위키북스의 한가지 단점은 아직 오타가 고쳐지지 않은 부분이 좀 있는데, 개인적으로 틀린 부분을 고쳐가면서 공부하기에는 큰 어려움은 없다.)

- 목차

아래의 목차 순서대로 스터디를 진행할 것이다.

필자는 파이썬 기본 개념인 numpy 및 pandas에 대한 개념은 건너 뛰고 스터디 할 예정이다.

1장: 파이썬 기반의 머신러닝과 생태계 이해
- 1.1. 머신러닝의 개념
- 1.2. 파이썬 머신러닝 생태계를 구성하는 주요 패키지
- 1.3. 넘파이
- 1.4. 데이터 핸들링 - 판다스
- 1.5. 정리
▣ 2장: 사이킷런으로 시작하는 머신러닝
- 2.1. 사이킷런 소개와 특징
- 2.2. 첫 번째 머신러닝 만들어 보기 – 붓꽃 품종 예측하기
- 2.3. 사이킷런의 기반 프레임워크 익히기
- 2.4. Model Selection 모듈 소개
- 2.5. 데이터 전처리
- 2.6. 사이킷런으로 수행하는 타이타닉 생존자 예측
- 2.7. 정리
▣ 3장: 평가
- 3.1. 정확도(Accuracy)
- 3.2. 오차 행렬
- 3.3. 정밀도와 재현율
- 3.4. F1 스코어
- 3.5. ROC 곡선과 AUC
- 3.6. 피마 인디언 당뇨병 예측
- 3.7. 정리
▣ 4장: 분류
- 4.1. 분류(Classification)의 개요
- 4.2. 결정 트리
- 4.3. 앙상블 학습
- 4.4. 랜덤 포레스트
- 4.5. GBM(Gradient Boosting Machine)
- 4.6. XGBoost(eXtra Gradient Boost)
- 4.7. LightGBM
- 4.8. 분류 실습 - 캐글 산탄데르 고객 만족 예측
- 4.9. 분류 실습 – 캐글 신용카드 사기 검출
- 4.10. 스태킹 앙상블
- 4.11. 정리
▣ 5장: 회귀
- 5.1. 회귀 소개
- 5.2. 단순 선형 회귀를 통한 회귀 이해
- 5.3. 비용 최소화하기 – 경사 하강법(Gradient Descent) 소개
- 5.4. 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측
- 5.5. 다항 회귀와 과(대)적합/과소적합 이해
- 5.6. 규제 선형 모델 – 릿지, 라쏘, 엘라스틱넷
- 5.7. 로지스틱 회귀
- 5.8. 회귀 트리
- 5.9. 회귀 실습 – 자전거 대여 수요 예측
- 5.10. 회귀 실습 – 캐글 주택 가격: 고급 회귀 기법
- 5.11. 정리
▣ 6장: 차원 축소
- 6.1. 차원 축소(Dimension Reduction) 개요
- 6.2. PCA(Principal Component Analysis)
- 6.3. LDA(Linear Discriminant Analysis)
- 6.4. SVD(Singular Value Decomposition)
- 6.5. NMF(Non-Negative Matrix Factorization)
- 6.6. 정리
▣ 7장: 군집화
- 7.1. K-평균 알고리즘 이해
- 7.2. 군집 평가(Cluster Evaluation)
- 7.3. 평균 이동
- 7.4. GMM(Gaussian Mixture Model)
- 7.5. DBSCAN
- 7.6. 군집화 실습 – 고객 세그먼테이션
- 7.7. 정리
▣ 8장: 텍스트 분석
- NLP이냐 텍스트 분석이냐?
- 8.1. 텍스트 분석 이해
- 8.2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화
- 8.3. Bag of Words – BOW
- 8.4. 텍스트 분류 실습 – 20 뉴스그룹 분류
- 8.5. 감성 분석
- 8.6. 토픽 모델링(Topic Modeling) - 20 뉴스그룹
- 8.7. 문서 군집화 소개와 실습(Opinion Review 데이터 세트)
- 8.8. 문서 유사도
- 8.9. 한글 텍스트 처리 – 네이버 영화 평점 감성 분석
- 8.10. 텍스트 분석 실습–캐글 Mercari Price Suggestion Challenge
- 8.11. 정리
▣ 9장: 추천 시스템
- 9.1. 추천 시스템의 개요와 배경
- 9.2. 콘텐츠 기반 필터링 추천 시스템
- 9.3. 최근접 이웃 협업 필터링
- 9.4. 잠재 요인 협업 필터링
- 9.5. 콘텐츠 기반 필터링 실습 – TMDB 5000 영화 데이터 세트
- 9.6. 아이템 기반 최근접 이웃 협업 필터링 실습
- 9.7. 행렬 분해를 이용한 잠재 요인 협업 필터링 실습
- 9.8. 파이썬 추천 시스템 패키지 - Surprise
- 9.9. 정리

'Data Analysis > Statistics with Python' 카테고리의 다른 글

[Statistics with Python] 06. 분류 알고리즘 평가 방법 - F1-score, ROC, AUC (0)	2019.08.17
[Statistics with Python] 05. 분류 알고리즘 평가 방법 - Accuracy, precision, recall (0)	2019.08.17
[Statistics with Python] 04. 데이터 전처리 : Encoding, One-Hot Encoding (with Scikit-learn) (0)	2019.08.17
[Statistics with Python] 03. Stratified K-fold, cross_val_score, GridSearchCV (with Scikit-learn) (0)	2019.08.15
[Statistics with Python] 02. 교차검증 Cross validation, K-fold (with Scikit-learn) (0)	2019.08.14

Dlearner의 자기계발 블로그

[Statistics with Python] 01. Python을 활용한 머신러닝 시작하기

Strat learning "Machine Learning with Python"

'Data Analysis > Statistics with Python' 카테고리의 다른 글

댓글

티스토리툴바

[Statistics with Python] 01. Python을 활용한 머신러닝 시작하기

Strat learning "Machine Learning with Python"

'Data Analysis > Statistics with Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바