@@@ 데이터분석/데이터 분석의 모든 것

Chapter 1. 기초 통계 - 1.2 기초 통계량과 확률

HTG 2021. 9. 8. 02:08
728x90

키워드 : 산술평균, 중앙값, 최빈값, 분산도, 범위, 평균, 편차, 분산, 표준편차

더보기

평균 - 주어진 수의 합을 수의 개수로 나눈 값. 집중화 경향을 나타내는 척도 중 가장 많이 사용.

중앙값 - 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미.

최빈값 - 가장 많이 관측되는 수. 즉, 주어진 값 중에서 가장 자주 나오는 값.

분산도 - 데이터가 흩어져 있는 정도를 말하며 이를 나타내는 방법으로는 범위, 평균편차, 분산, 표준편차 등이 있음.

범위 - 단순히 최대값과 최소값의 차를 나타내는 값으로 간단히 구할 수는 있지만 분포의 양상은 설명하지 못함.

평균편차(절대편차) - 평균과 개별 관측값 사이 거리의 평균

분산 - 분산도를 구하는 것에 있어서 분포의 양상을 평균편차보다 잘 설명하기 때문에 더 유용하고 널리 사용.

표준편차 - 분산의 단점인 편차를 제곱하여 단위가 없어진다는 점을 제곱근을 하여 원래의 단위로 값을 돌린 것.

1.2.1 집중화 경향 대표값

관측된 데이터들이 어디에 집중되어 있는가를 나타내 주는 것 - 평균, 중앙값, 최빈값

 

1.2.1.1 평균(mean, 산술평균)

주어진 수의 합을 수의 개수로 나눈 값.

집중화 경향을 나타내는 척도 중 가장 많이 사용.

모집단의 평균은 μ로 표기, 표본의 평균은  X̄로 표기.

$$ \mu = \frac{X_1 + X_2 + \ldots + X_N}{n} = \frac{\sum X_i}{n}$$

이러한 평균에는 극단값에 큰 영향을 받는다는 단점이 있음.

이런 평균의 특징을 견고(robust)하지 않다고 함.

다음은 극단값의 영향이 적은 중앙값에 대한 것.

 

1.2.1.2 중앙값

어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값.데이터의 개수가 짝수일 경우, 가운데 2개의 평균이 중앙값이 된다.위에서도 말했지만 평균의 경우 모든 관측값을 반영하기 때문에 이상치에 영향을 많이 받음.반면, 중앙값의 경우 영향을 받지 않음.이런 중앙값의 특징을 견고(robust)하다고 함.

 

1.2.1.3 최빈값(mode)

가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값.

평균과 달리 유일한 값이 아닐 수도 있음.

 

평균과 중앙값은 숫자로 표현되는 양적 자료에만 사용할 수 있지만, 최빈값의 경우 양적 자료, 질적 자료 모두 사용 가능.

연속적 자료일 경우 구간을 나누어 빈도 수를 측정.

 

 

1.2.2 분산도

집중화 경향만으로는 데이터 분포에 대한 충분한 정보를 얻을 수가 없다. 추가적으로 데이터가 흩어져 있는 정도를 살펴보는 것도 중요함.

분산도 - 데이터가 흩어져 있는 정도.

이를 나타내는 방법으로 범위, 평균편차, 분산, 표준편차가 있음.

 

1.2.2.1 범위(range)

단순히 최대값과 최소값의 차를 나타내는 값.

간단히 구할 수는 있지만 분포의 양상은 설명하지 못함.

이를 보완한 것이 평균편차, 분산, 표준편차

 

1.2.2.2 평균편차(mean deviation), 절대편차(absolute deviation)

평균과 개별 관측값 사이 거리의 평균. $ AD $로 표시

각 측정치에서 전체 평균을 뺀 절대값으로 표시되는 편차의 평균.

n개로 구성된 관측값 $ X_1, X_2, \dots, X_n $, 평균 $ \overline{X} $

$$ AD = \frac{\Sigma \left| X_i - \overline{X} \right|}{n} $$

 

1.2.2.3 분산(variance)

분산도를 구하는 것에 있어서 평균편차보다 더 융요하고 널리 사용.

각 관측값에서 전체 평균을 뺀 값의 제곱의 평균을 말하는 것.

모집단의 분산은 $\sigma^2 $로 표기, 표본의 분산은 $ S^2 $로 표기

모집단을 구성하는 n개의 구성된 관측값 $ X_1, X_2, \dots, X_n $, 평균 $\mu$일 때 모집단의 분산 $\sigma^2$

$$\sigma^2 = \frac{\Sigma (X_i - \mu)^2}{n}$$

앞서 설명한, 평균편차가 유용하긴 하지만 분산이 분포의 양상을 더 잘 설명.

=> 분산의 경우, 평균에 멀어진 정도를 평균 편차보다 더 잘 나타냄. (분산의 경우, 편차를 제곱하기 때문에 평균에서 멀어질수록 더 큰 값을 가지기 때문)(편차 2, 2 이면 분산은 4 / 편차가 4, 0 이면 분산은 8)

 

n개로 구성된 표본(Sample)의 분산은 n으로 나누는 것 보다 n - 1(자유도)로 나누는 것이 모집단의 분산($\sigma^2$)을 추정하기에 더 적절하다고 말함.

그래서, n개로 구성된 표본의 관측값 $ X_1, X_2, \dots, X_n $, 평균이 $\overline{X} $일 때 표본(Sample)의 분산 $S^2$ 식$$ S^2 = \frac{\Sigma(X_i - \overline{X})^2}{n-1} $$

 

하지만, 표본의 수가 충분히 많다면 n으로 나누는 것이나 n-1로 나누는 것이 차이가 많이 나지 않음.

또한, 기술 통계에서 모집단과 표본을 구별하지 않고, 연구 자료의 분포만을 알아보는 것이 목적일 때는 n-1대신 n을 사용.$$ S^2 = \frac{\Sigma(X_i - \overline{X})^2}{n} $$

 

1.2.2.4 표준편차(standard deviation)

분산의 단점은 편차를 제곱하므로 단위가 없어진다는 것.

분산에 제곱근을 하면 원래의 단위로 값을 돌릴 수 있는데 그것이 표준편차.

모집단의 표준편차는 $ \sigma $로 표기, 표본의 표준편차는 $S$로 표기

표준편차 $\sigma$의 식

$$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\Sigma(X_i - \mu)^2}{n}}$$

표본의 표준편차 $S$의 식 $\sigma$

$$ S = \sqrt{S^2} = \sqrt{\frac{\Sigma(X_i - \overline{X})^2}{n-1}} \text{또는} = \sqrt{\frac{\Sigma(X_i - \overline{X})^2}{n}}$$

 

 

1.2.3 확률 이론

과거에 발생한 사건(event)은 100% 일어난 일.

미래에 발생할 일은 확정할 수 없기에 확률이라는 개념을 사용하여 가능성을 표현.

 

1.2.3.1 확률 개념

확률은 100%이면 발생할 가능성이 많은 것, 0%이면 발생 가능성이 없는 것.

이론적으로 계산가능. 발생할 가능성이 있는 전체 경우의 수를 부분 집합인 사건 A 경우의 수로 나누어 계산.

$$ P(A) = \frac{\text{사건 A에 속하는 경우의 수}}{\text{발생할 가능성이 동일한 전체 경우의 수}} $$

이론적인 확률 계산에는 한 가지 가정을 근거로 한다. 

동등발생정의 - 각 사건의 발생 확률이 동일.

만약 동등발생정의가 가정되지 않는 다면 직접 모의실험을 수없이 반복해서 확률을 구해야 한다.

이를 경험적인 확률 이라고 한다.

 

1.2.3.2 조건부 확률

두 사건 A, B에 대하여 사건 B가 일어났다는 조건에서 사건 A가 일어날 확률을 사건 B가 일어났을 때 사건 A의 조건부 확률이라고 정의.

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

 

1.2.3.3 독립사건(independent event)과 종속사건(dependent event)

종속사건 - 한 사건의 발생이 다음에 발생할 사건에 영향을 주는 경우

독립사건 - 처음에 어떤 결과가 나왔느냐 하는 것이 다음에 어떤 사건이 발생할 확률에 아무 영향을 주지 않을 때 이 두사건.

독립 사건일 때, 다음의 수식이 성립

$$ P(A|B) = P(A), P(B|A) = P(B) $$ 

이 식의 의미는 사건 A가 나올 확률은 사건 B의 결과와는 관계없이 언제나 같다는 의미.

반대로 사건 B가 나올 확률은 사건 A의 결과와는 관계없이 언제나 같다는 것도 의미.

 

1.2.3.4 이산확률변수와 연속확률변수

이산확률변수 - 표본 공간에서 모든 사건을 정수와 일대일로 대응할 수 있는 변량을 가지는 변수.

연속확률변수 - 어떤 구간의 모든 실수값을 가지는 확률변수.

이와 같은 실수 관측값을 갖는 경우 정확히 한 지점의 수치에 대한 확률을 구하는 것은 0%에 가까움.

일정한 구간을 정하고 그 구간의 모든 실수값에 대한 확률을 구해야 함.

이 처럼 일정 구간의 연속된 값에 대한 확률변수를 연속확률변수라 함.

 

1.2.3.5 확률분포와 확률함수

이산확률분포(discrete probability distribution) - 이산확률변수가 가지는 확률분포

이산확률함수 (= 확률질향함수), $ P(X_i) $로 표현.

확률변수 X가 $X_i$의 값을 가질 확률. 각 확률변수의 확률은 막대 그래프의 높이로 표현.

 

연속확률분포(continuous probability distribution) - 연속확률변수가 가지는 확률분포

확률밀도함수 , $f(X)$로 표현.

확률밀도함수는 그래프의 모양을 나타내는 식에 불과하며 확률을 나타내는 식이 아님.

연속확률분포에서의 확률은 밀도함수 $f(x)$와 X축 사이의 어느 구간의 넓이로 계산.

 

1.2.3.6 기대값

각 사건이 벌어졌을 때의 이득(확률변수)과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값.

이것은 어떤 확률적 사건에 대한 평균의 의미로 생각.

기대값 $E(X)$의 식

$$ E(X) = \Sigma X_i \dot P(X_i)$$