@@@ 데이터분석/데이터 분석의 모든 것

Chapter 1. 기초 통계 - 1.3 정규분포와 표준화

HTG 2021. 9. 8. 22:38
728x90

키워드 : 정규분포, 중심극한정리, 표준화, 표준정규분포, Z-분포

더보기

정규분포의 모양은 평균과 표준편차에 의해서 결정되는데 그래프로 표현하면 좌우대칭의 종모양.

중심극한정리 - '모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리

표준화 - 값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.

정규분포를 표준화시키면 표준정규분포가 생성. 표준정규분포는 평균이 0, 표준편차가 1인 정규분포.

표준정규분포는 X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 부름.

 

1.3.1 정규분포(normal distribution)

가우시안분포(Gaussian distribution)라고도 부름.

연속확률분포 중 하나.

실제 우리가 접하게 되는 많은 데이터가 정규분포와 비슷한 형태를 띌 수 있음.

하지만, 모든 모집단이 정규분포를 따르는 것은 아님.

정규분포는 가설 검정 이론 및 많은 통계 이론의 기초가 되는 중요한 분포.

 

1.3.1.1 정규분포

다음과 같은 확률밀도함수, $ f(X) $에 의해 결정.

$$ f(X) = \frac{1}{\sqrt[\sigma] 2\pi}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} , -\infty < X < +\infty $$

$ \pi : 원주율, e : 자연대수, \mu : 분포의 평균, \sigma : 분포의 표준편차 $

이식에서 분포의 평균과 표준편차 외에는 모두 상수.

따라서 정규분포의 모양은 평균($\mu$)과 표준편차($\sigma$)에 의해 결정된다.는 것을 알 수 있음.

그래프로 표현하면 평균을 중심으로 좌우 대칭의 종모양

 - 평균을 따라 좌우로 이동, 표준편차가 크면 완만해지고 작을수록 가팔라진다.

 

정규분포의 특징

  • 정규분포의 모양은 평균과 표준편차에 의해 결정. 이때의 분포를 $N(\mu,\sigma^2)$
  • 평균을 중심으로 좌우대칭인 종모양
  • 확률변수 $X$가 취할 수 있는 범위는 $-\infty < X < +\infty$. 양극단으로 갈수록 $X$축에 무한히 접근하지만 $X$축에 닿지는 않는다.
  • 분포의 편균과 표준편차가 어떤 값을 갖더라도, 정규분포의 곡선과 $X$축 사이의 전체 면적은 1.
  • 관찰값의 99.7%가 $\pm 3\sigma$안에 속함.

 

1.3.1.2 중심극한정리

'모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리

즉, 쉽게 말하면 계속해서 표본을 뽑아 평균들을 구해서 그래프로 나타내면 모집단으로 구한 정규분포 모양과 비슷해진다는 것.

한 번 추출한 표본수가 클수록 정규분포의 중심은 모집단의 평균과 가까워진다.

중심극한정리는 가설 검정과 신뢰구간의 근간이 된다.

어떤 가설을 세우고 그것이 검정할 때, 정규분포를 활용하여 보통 5%를 기준으로 판단한다. 이 5%를 유의수준이라고 함.

자세한 것은 가설 검정에서 다룸.

 

 

1.3.2 표준화

값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.

 

1.3.2.1 표준화의 필요성

각각 다른 평균을 가진 값을 가진 데이터들의 평균을 구했을 때 어느 것이 더 좋은가를 평가 할 때.

예를 들어, 성적의 경우 각 과목의 난이도가 달라 평균이 다른데 누가 더 시험을 잘 쳤는가 평가 할 때 단순 평균으로 구하면 형평성에 어긋날 수 있다. 이때 사용하는 것이 표준화.

 

표준화 과정

1. 원래의 값에서 평균을 뺀다.

이렇게 구한 값들로 평균을 구하면 정확히 0.

이렇게 관측값에서 평균을 빼는 것을 중심화

2. 1의 결과값을 표준편차로 나눈다.

이 결과, 얼마나 평균에서 먼 값인지가 상대적인 척도로 계산된다. 이 과정을 척도화(Scaling)이라고 함.

척도화는 단위를 없애는 기능.

예를 들어, 단위에 따라 거리의 길이가 같더라도 숫자는 다른데 이를 표준편차로 나누면 평균으로부터 떨어진 두 거리를 같은 수치로 얻을 수 있게 된다.

 

이와 같은 표준화를 식으로 정리하면 $$Z=\frac{X-\mu}{\sigma}$$

 

성적을 이용한 예시

더보기

A학생 국어 100, 영어 70/ B학생 국어 70, 영어 100

둘의 평균은 85로 동일.

하지만 국어의 평균은 50, 표준편차는 50, 영어의 평균은 70, 표준편차는 60 일 때,

A학생의 국어 표준점수는 (100 - 50)/50 = 1, 영어 표준점수는 (70 - 70)/60 = 0     => 1

B학생의 국어 표준점수는 (70 - 50)/50 = 0.4, 영어 표준점수는 (100 - 70)/60 = 0.5 => 0.9

즉, A학생이 조금 더 우수하다는 것을 알 수 있음.

 

1.3.2.2 표준정규분포(standard normal distribution)

정규분포를 표준화시키면 표준정규분포가 생성.

표준정규분포는 평균이 0, 표준편차가 1인 정규분포 $N(0,1^2)$

평균이 $\mu$, 표준편차가 $\sigma$인 정규분포를 표준화시켜 얻은 분포.

모집단의 표준정규분포 표본의 표준정규분포
$$Z = \frac{X-\mu}{\sigma}$$ $$Z = \frac{X-\overline{X}}{S}$$
$\mu$ : 모집단 분포의 평균 $\overline{X}$ : 표본 분포의 평균
$\sigma$ : 모집단 분포의 표준편차 $S$ : 표본 분포의 표준편차

표준정규분포는 X대신 Z를 확률변수로 쓰기 때문에 Z-분포라고 불림

 

Z-분포는 정규분포의 일종이기 때문에 마찬가지로 좌우대칭의 종모양.

확률변수 Z가 취할 수 있는 값의 범위는 $-\infty < Z < +\infty$이고, 표준정규곡선과 Z축 사이의 면적의 합이 1인 것도 정규분포와 동일.

 

확률변수 Z가 표준정규분포를 따르면 Z의 확률밀도함수 $f(Z)$

$$f(Z) = \frac{1}{\sqrt{2\pi}}e^{\frac{\Z^2}{2}}, -\infty < Z < +\infty $$

Z가 a이상 b이하의 값을 가질 확률 P(a$\leq Z \leq$b)은 표준정규분포 그래프의 a~b까지의 넓이와 같다.