본문 바로가기
반응형

분류 전체보기45

[기초통계] 표본분포, 표본평균의 오차, 중심극한정리, 표본의 개수 - 표본분포 표본분포(sample distribution) 표본에서 도출되는 통계량에 대한 확률분포이다. 다시 말해, 표본분포는 모수를 추정하기 위한 표본 통계량의 확률분포이다. 필자를 비롯하여 많은 사람들이 표본분포를 '추출된 표본에서 분포를 확인하는 것'이라고 잘못 이해하고 있는 경우가 많다. 표본분포는 '표본 통계량의 확률분포'임을 잊지 말자. - 표본평균의 오차 표본평균의 오차란 표본으로부터 모수를 추정했을 때, 모수와 통계량(표본평균) 간의 차이를 의미한다. 표본을 추출할 때 정확하게 추출했다 하더라도 오차를 피할 수 없는 경우가 대부분이기에, 이 오차를 줄여나가는 것은 매우 중요하다. 보통, 표본의 개수가 늘어날수록 통계량이 모수와 가까워진다고 말한다. 이를 표본평균의 오차의 관점에서 다시 말.. 2019. 9. 3.
[기초 통계] 모집단, 모수와 통계량, 표본추출 방법 - 모집단 통계분석 방법을 적용할 관심 대상의 전체 집합을 말한다. 일반적으로 모집단 전체 데이터를 활용한 분석은 효율성의 측면에서 봤을 때 진행할 수 없다고 판단된다. 들이는 비용이 너무 많기 때문이다. 따라서 모집단을 대표할 수 있는 일부를 추출하여 조사를 실시하게 되는데, 이러한 모집단의 일부를 표본(sample)이라고 한다. - 모수와 통계량 모수(parameter)는 모집단을 분석하여 얻어지는 결과 수치이다. 평균, 분산, 표준편차, 비율 등의 모집단 특성을 모평균. 모분산(σ2), 모표준편차(σ), 모비율(p)로 나타낸다. 통계량(statistic)은 표본을 분석하여 얻어지는 결과 수치이다. 평균, 분산, 표준편차, 비율 등의 표본의 특성을 표본평균, 표본분산(s2), 표본표준편차(s), 표본.. 2019. 9. 1.
[기초통계] 통계학이란(통계학 목적, 방법, 추정과 예측의 차이) 통계학 기초 정리 통계학이란 수량적인 비교를 기초로 많은 사실을 관찰하고 처리하는 방법을 연구하는 학문이다. 통계학을 기반으로 불균형적인 데이터를 대상으로 규칙성과 불규칙성을 발견하여 실생활에 응용할 수 있다는 점에서 그 활용가치가 높다. 통계학의 목적 1. 의사결정 정보처리 관점에서 의사결정을 한다는 것은 많은 정보를 지각하고 평가하여 하나를 선택한다는 것이다. 이러한 경우, 여러 가지 변수나 데이터가 복잡하게 얽혀있어서 자료를 기준으로 판단하기 어려울 때 통계학적 지표로 선택의 근거를 마련할 수 있다. 2. 요약 통계에서 요약이란 데이터의 요약을 의미한다. 데이터를 수집하여 요약을 하는 이유는 빠른 의사결정을 위한 판단의 지표를 마련하기 위함이다. 특히 의미있는 기준(날짜별, 월별, 지점별, 지역별 .. 2019. 9. 1.
[Statistics with Python] 07. 분류 알고리즘 - Decision Tree(결정 트리) 4절 분류(Classification) - 2장 결정트리(Decision Tree, 의사결정나무) 본 포스팅은 [위키북스- 파이썬 머신러닝 완벽 가이드]를 활용한 스터디 포스팅입니다. 이번 포스팅에서는 ML 알고리즘 중 가장 직관적이고 대표적인 알고리즘을 스터디하려 한다. - 결정 트리(Decision Tree)란? 데이터에 있는 규칙을 학습 과정을 통해 자동으로 찾아내어 트리 형태의 분류 규칙을 만드는것이다. 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 되는지 그 성능을 크게 좌우한다. - 결정 트리 구조 도식화 및 구성 설명 결정 트리의 구조를 도식화하면 아래와 같이 나타낼 수 있다. 규칙 노드(Decision Node) : 분할의 규칙이 명시되어있는 규칙 조건이 담긴 노드이다.. 2019. 8. 31.
반응형