키워드 : 정규분포, 중심극한정리, 표준화, 표준정규분포, Z-분포
정규분포의 모양은 평균과 표준편차에 의해서 결정되는데 그래프로 표현하면 좌우대칭의 종모양.
중심극한정리 - '모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리
표준화 - 값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.
정규분포를 표준화시키면 표준정규분포가 생성. 표준정규분포는 평균이 0, 표준편차가 1인 정규분포.
표준정규분포는 X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 부름.
1.3.1 정규분포(normal distribution)
가우시안분포(Gaussian distribution)라고도 부름.
연속확률분포 중 하나.
실제 우리가 접하게 되는 많은 데이터가 정규분포와 비슷한 형태를 띌 수 있음.
하지만, 모든 모집단이 정규분포를 따르는 것은 아님.
정규분포는 가설 검정 이론 및 많은 통계 이론의 기초가 되는 중요한 분포.
1.3.1.1 정규분포
다음과 같은 확률밀도함수, f(X)f(X)에 의해 결정.
f(X)=1σ√2πe−12(x−μσ)2,−∞<X<+∞
π:원주율,e:자연대수,μ:분포의평균,σ:분포의표준편차
이식에서 분포의 평균과 표준편차 외에는 모두 상수.
따라서 정규분포의 모양은 평균(μ)과 표준편차(σ)에 의해 결정된다.는 것을 알 수 있음.
그래프로 표현하면 평균을 중심으로 좌우 대칭의 종모양
- 평균을 따라 좌우로 이동, 표준편차가 크면 완만해지고 작을수록 가팔라진다.
정규분포의 특징
- 정규분포의 모양은 평균과 표준편차에 의해 결정. 이때의 분포를 N(μ,σ2)
- 평균을 중심으로 좌우대칭인 종모양
- 확률변수 X가 취할 수 있는 범위는 −∞<X<+∞. 양극단으로 갈수록 X축에 무한히 접근하지만 X축에 닿지는 않는다.
- 분포의 편균과 표준편차가 어떤 값을 갖더라도, 정규분포의 곡선과 X축 사이의 전체 면적은 1.
- 관찰값의 99.7%가 ±3σ안에 속함.
1.3.1.2 중심극한정리
'모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리
즉, 쉽게 말하면 계속해서 표본을 뽑아 평균들을 구해서 그래프로 나타내면 모집단으로 구한 정규분포 모양과 비슷해진다는 것.
한 번 추출한 표본수가 클수록 정규분포의 중심은 모집단의 평균과 가까워진다.
중심극한정리는 가설 검정과 신뢰구간의 근간이 된다.
어떤 가설을 세우고 그것이 검정할 때, 정규분포를 활용하여 보통 5%를 기준으로 판단한다. 이 5%를 유의수준이라고 함.
자세한 것은 가설 검정에서 다룸.
1.3.2 표준화
값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용.
1.3.2.1 표준화의 필요성
각각 다른 평균을 가진 값을 가진 데이터들의 평균을 구했을 때 어느 것이 더 좋은가를 평가 할 때.
예를 들어, 성적의 경우 각 과목의 난이도가 달라 평균이 다른데 누가 더 시험을 잘 쳤는가 평가 할 때 단순 평균으로 구하면 형평성에 어긋날 수 있다. 이때 사용하는 것이 표준화.
표준화 과정
1. 원래의 값에서 평균을 뺀다.
이렇게 구한 값들로 평균을 구하면 정확히 0.
이렇게 관측값에서 평균을 빼는 것을 중심화
2. 1의 결과값을 표준편차로 나눈다.
이 결과, 얼마나 평균에서 먼 값인지가 상대적인 척도로 계산된다. 이 과정을 척도화(Scaling)이라고 함.
척도화는 단위를 없애는 기능.
예를 들어, 단위에 따라 거리의 길이가 같더라도 숫자는 다른데 이를 표준편차로 나누면 평균으로부터 떨어진 두 거리를 같은 수치로 얻을 수 있게 된다.
이와 같은 표준화를 식으로 정리하면 Z=X−μσ
성적을 이용한 예시
A학생 국어 100, 영어 70/ B학생 국어 70, 영어 100
둘의 평균은 85로 동일.
하지만 국어의 평균은 50, 표준편차는 50, 영어의 평균은 70, 표준편차는 60 일 때,
A학생의 국어 표준점수는 (100 - 50)/50 = 1, 영어 표준점수는 (70 - 70)/60 = 0 => 1
B학생의 국어 표준점수는 (70 - 50)/50 = 0.4, 영어 표준점수는 (100 - 70)/60 = 0.5 => 0.9
즉, A학생이 조금 더 우수하다는 것을 알 수 있음.
1.3.2.2 표준정규분포(standard normal distribution)
정규분포를 표준화시키면 표준정규분포가 생성.
표준정규분포는 평균이 0, 표준편차가 1인 정규분포 N(0,12)
평균이 μ, 표준편차가 σ인 정규분포를 표준화시켜 얻은 분포.
모집단의 표준정규분포 | 표본의 표준정규분포 |
Z=X−μσ | Z=X−¯XS |
μ : 모집단 분포의 평균 | ¯X : 표본 분포의 평균 |
σ : 모집단 분포의 표준편차 | S : 표본 분포의 표준편차 |
표준정규분포는 X대신 Z를 확률변수로 쓰기 때문에 Z-분포라고 불림
Z-분포는 정규분포의 일종이기 때문에 마찬가지로 좌우대칭의 종모양.
확률변수 Z가 취할 수 있는 값의 범위는 −∞<Z<+∞이고, 표준정규곡선과 Z축 사이의 면적의 합이 1인 것도 정규분포와 동일.
확률변수 Z가 표준정규분포를 따르면 Z의 확률밀도함수 f(Z)
f(Z)=1√2πe\Z22,−∞<Z<+∞
Z가 a이상 b이하의 값을 가질 확률 P(a≤Z≤b)은 표준정규분포 그래프의 a~b까지의 넓이와 같다.
'@@@ 데이터분석 > 데이터 분석의 모든 것' 카테고리의 다른 글
Chapter 2. R 프로그래밍 - 2.2 변수와 데이터 타입 (0) | 2021.09.12 |
---|---|
Chapter 1. 기초 통계 - 1.4 가설 검정 (0) | 2021.09.10 |
Chapter 1. 기초 통계 - 1.2 기초 통계량과 확률 (0) | 2021.09.08 |
Chapter 1. 기초 통계 - 1.1 통계 개요 (0) | 2021.09.06 |
Part 1. 비전공자를 위한 기초 지식 (통계, R) (0) | 2021.09.06 |