키워드 : 정규분포, 중심극한정리, 표준화, 표준정규분포, Z-분포
정규분포의 모양은 평균과 표준편차에 의해서 결정되는데 그래프로 표현하면 좌우대칭의 종모양.
중심극한정리 - '모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리
표준화 - 값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.
정규분포를 표준화시키면 표준정규분포가 생성. 표준정규분포는 평균이 0, 표준편차가 1인 정규분포.
표준정규분포는 X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 부름.
1.3.1 정규분포(normal distribution)
가우시안분포(Gaussian distribution)라고도 부름.
연속확률분포 중 하나.
실제 우리가 접하게 되는 많은 데이터가 정규분포와 비슷한 형태를 띌 수 있음.
하지만, 모든 모집단이 정규분포를 따르는 것은 아님.
정규분포는 가설 검정 이론 및 많은 통계 이론의 기초가 되는 중요한 분포.
1.3.1.1 정규분포
다음과 같은 확률밀도함수, $ f(X) $에 의해 결정.
$$ f(X) = \frac{1}{\sqrt[\sigma] 2\pi}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} , -\infty < X < +\infty $$
$ \pi : 원주율, e : 자연대수, \mu : 분포의 평균, \sigma : 분포의 표준편차 $
이식에서 분포의 평균과 표준편차 외에는 모두 상수.
따라서 정규분포의 모양은 평균($\mu$)과 표준편차($\sigma$)에 의해 결정된다.는 것을 알 수 있음.
그래프로 표현하면 평균을 중심으로 좌우 대칭의 종모양
- 평균을 따라 좌우로 이동, 표준편차가 크면 완만해지고 작을수록 가팔라진다.
정규분포의 특징
- 정규분포의 모양은 평균과 표준편차에 의해 결정. 이때의 분포를 $N(\mu,\sigma^2)$
- 평균을 중심으로 좌우대칭인 종모양
- 확률변수 $X$가 취할 수 있는 범위는 $-\infty < X < +\infty$. 양극단으로 갈수록 $X$축에 무한히 접근하지만 $X$축에 닿지는 않는다.
- 분포의 편균과 표준편차가 어떤 값을 갖더라도, 정규분포의 곡선과 $X$축 사이의 전체 면적은 1.
- 관찰값의 99.7%가 $\pm 3\sigma$안에 속함.
1.3.1.2 중심극한정리
'모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리
즉, 쉽게 말하면 계속해서 표본을 뽑아 평균들을 구해서 그래프로 나타내면 모집단으로 구한 정규분포 모양과 비슷해진다는 것.
한 번 추출한 표본수가 클수록 정규분포의 중심은 모집단의 평균과 가까워진다.
중심극한정리는 가설 검정과 신뢰구간의 근간이 된다.
어떤 가설을 세우고 그것이 검정할 때, 정규분포를 활용하여 보통 5%를 기준으로 판단한다. 이 5%를 유의수준이라고 함.
자세한 것은 가설 검정에서 다룸.
1.3.2 표준화
값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.
1.3.2.1 표준화의 필요성
각각 다른 평균을 가진 값을 가진 데이터들의 평균을 구했을 때 어느 것이 더 좋은가를 평가 할 때.
예를 들어, 성적의 경우 각 과목의 난이도가 달라 평균이 다른데 누가 더 시험을 잘 쳤는가 평가 할 때 단순 평균으로 구하면 형평성에 어긋날 수 있다. 이때 사용하는 것이 표준화.
표준화 과정
1. 원래의 값에서 평균을 뺀다.
이렇게 구한 값들로 평균을 구하면 정확히 0.
이렇게 관측값에서 평균을 빼는 것을 중심화
2. 1의 결과값을 표준편차로 나눈다.
이 결과, 얼마나 평균에서 먼 값인지가 상대적인 척도로 계산된다. 이 과정을 척도화(Scaling)이라고 함.
척도화는 단위를 없애는 기능.
예를 들어, 단위에 따라 거리의 길이가 같더라도 숫자는 다른데 이를 표준편차로 나누면 평균으로부터 떨어진 두 거리를 같은 수치로 얻을 수 있게 된다.
이와 같은 표준화를 식으로 정리하면 $$Z=\frac{X-\mu}{\sigma}$$
성적을 이용한 예시
A학생 국어 100, 영어 70/ B학생 국어 70, 영어 100
둘의 평균은 85로 동일.
하지만 국어의 평균은 50, 표준편차는 50, 영어의 평균은 70, 표준편차는 60 일 때,
A학생의 국어 표준점수는 (100 - 50)/50 = 1, 영어 표준점수는 (70 - 70)/60 = 0 => 1
B학생의 국어 표준점수는 (70 - 50)/50 = 0.4, 영어 표준점수는 (100 - 70)/60 = 0.5 => 0.9
즉, A학생이 조금 더 우수하다는 것을 알 수 있음.
1.3.2.2 표준정규분포(standard normal distribution)
정규분포를 표준화시키면 표준정규분포가 생성.
표준정규분포는 평균이 0, 표준편차가 1인 정규분포 $N(0,1^2)$
평균이 $\mu$, 표준편차가 $\sigma$인 정규분포를 표준화시켜 얻은 분포.
모집단의 표준정규분포 | 표본의 표준정규분포 |
$$Z = \frac{X-\mu}{\sigma}$$ | $$Z = \frac{X-\overline{X}}{S}$$ |
$\mu$ : 모집단 분포의 평균 | $\overline{X}$ : 표본 분포의 평균 |
$\sigma$ : 모집단 분포의 표준편차 | $S$ : 표본 분포의 표준편차 |
표준정규분포는 X대신 Z를 확률변수로 쓰기 때문에 Z-분포라고 불림
Z-분포는 정규분포의 일종이기 때문에 마찬가지로 좌우대칭의 종모양.
확률변수 Z가 취할 수 있는 값의 범위는 $-\infty < Z < +\infty$이고, 표준정규곡선과 Z축 사이의 면적의 합이 1인 것도 정규분포와 동일.
확률변수 Z가 표준정규분포를 따르면 Z의 확률밀도함수 $f(Z)$
$$f(Z) = \frac{1}{\sqrt{2\pi}}e^{\frac{\Z^2}{2}}, -\infty < Z < +\infty $$
Z가 a이상 b이하의 값을 가질 확률 P(a$\leq Z \leq$b)은 표준정규분포 그래프의 a~b까지의 넓이와 같다.
'@@@ 데이터분석 > 데이터 분석의 모든 것' 카테고리의 다른 글
Chapter 2. R 프로그래밍 - 2.2 변수와 데이터 타입 (0) | 2021.09.12 |
---|---|
Chapter 1. 기초 통계 - 1.4 가설 검정 (0) | 2021.09.10 |
Chapter 1. 기초 통계 - 1.2 기초 통계량과 확률 (0) | 2021.09.08 |
Chapter 1. 기초 통계 - 1.1 통계 개요 (0) | 2021.09.06 |
Part 1. 비전공자를 위한 기초 지식 (통계, R) (0) | 2021.09.06 |