키워드 : 모집단, 표본, 모수, 통계량, 명목척도, 서열척도, 순서척도, 등간척도, 구간척도, 비율척도
모집단 - 정보를 얻고자 하는 관심 대상의 전체 집합
표본 - 모집단의 부분 집합
모수 - 모집단의 특성을 수치로 나타낸 것
통계량 - 표본의 특성을 수치로 나타낸 것
데이터의 측정 수준에 따라 명목척도, 서열척도, 등간척도, 비율척도로 구분
명목척도 - 관측 대상의 특성을 분류하는 척도
서열척도, 순서척도 - 크고 작음 등 순서가 표현되는 척도
등간척도, 구간척도 - 측정 대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수 있는 척도
비율척도 - 구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도
1.1.1 통계학의 중요 용어와 개념
통계학은 관찰 및 조사로 얻을 수 있는 데이터로부터, 응용 수학의 기법을 이용해 수치상의 성질, 규칙성 또는 불규칙성을 찾아냄. 즉 데이터의 요약이나 해성을 실시하는데 있어서의 근거 제공 및 합리적인 의사결정에 도움.
1.1.1.1 모집단과 표본
모집단(population) - 정보를 얻고자 하는 관심 대상의 전체 집합.
하지만, 현실에서 모든 대상의 데이터를 얻는 것은 어렵기 때문에 표본(sample)을 추출
1.1.1.2 모수와 통계량
모수(parameters) - 모집단의 특성을 수치로 나타낸 것
통계량(statistics) - 표본의 특성을 수치로 나타낸 것
모집단의 모든 값에 대해 전수 조사를 하는 것이 실용적이지 않고나 불가능한 경유, 표본을 추출하여 표본의 통계량으로 모집단의 모수를 추정.
모수는 그리스 문자 (평균 : μ, 표준편차 : σ) 로 표기
통계량은 영문자(평균 : X̄, 표준편차 :S) 로 표기
1.1.1.3 변수와 관측값
테이블 형태로 구조화할 수 있는 정형 데이터에서
행은 각각의 특정 객체의 데이터를 관측한 관측값
열은 관측 대상에 따라 데이터가 변할 수 있으므로 변수(variable) 라고함/ 통계학의 변수를 다른 용어로 차원이라고도 부름.
특정 대상의 변수가 늘어가면 차원을 늘려야 표현이 가능하기 때문. (각 학생의 국어, 영어 점수는 2차원에서 표현이 가능하지만 국어, 영어, 수학을 표현하려면 3차원이 필요)
1.1.1.4 양적 변수와 질적 변수
양적 변수 - 크기, 무게, 점수, 기온 등 수치로 나타낼 수 있는 변수.
양적 변수를 연속형 변수, 이산형 변수로 구분
└ 연속형 변수 : 주어진 범위 내에서 모든 연속적인 값을 취할 수 있는 변수(키, 무게, 기온)
└ 이산형 변수 : 정수값만 취할 수 있는 변수(주문 수량, 자녀 수)
질적 변수 - 성별, 거주지 등 수치로 나타낼 수 없는 변수
1.1.1.5 측정 수준
데이터 측정 수준에 따라 4가지로 구분/ 측정 수준에 따라 분석 방법이 달라지기 때문에 측정 수준을 정확히 아는 것이 중요
명목 척도(nominal scale) : 관측 대상의 특성을 분류하는 척도 (성별, 직업, 거주지 등)
숫자로 표현은 가능하나 정령 및 사칙 연산은 불가능
서열 척도, 순서 척도(ordinal scale) : 크고 작음 등 순서가 표현되는 척도 (등급, 석차 등)
정렬은 가능하지만 사칙 연산은 불가능
등간 척도, 구간 척도(interval scale) : 측정 대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수 있는 척도 (온도, IQ 등)
정렬 및 사칙 연산이 가능, 하지만 차이의 비율은 큰 의미가 없음.
비율 척도(ratio scale) : 구간 척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도 (무게, 거리, 자녀 수)
정렬, 사칙 연산, 비율 등의 모든 통계적 분석이 가능.
1.1.2 통계 자료의 획득 방법
통계학에서 표본은 모집단의 부분 집합. 전형적으로 모집단은 매우 크기 때문에, 모집단의 모든 값에 대해 전수하는 것은 불가능에 가깝다.
1.1.2.1 단순랜덤추출(Simple Random Sampling)
모집단 전체 데이터에서 각 데이터가 표본으로 선택될 확률을 동일하게 갖도록 설계하는 표본 추출 방법.
이론적으로 가장 간단하지만 모든 개체가 추출 이전에 확인되어야 하고 표시되어야 하기 때문에 비용이 많이 들고 실현 가능성이 적다는 문제점이 있음.
복원 추출과 비복원 추출이 있음.
1.1.2.2 계통추출(Systematic Sampling)
첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법.
모집단의 크기를 원하는 표본의 크기로 나우어 k를 계산/ k는 표집 간격이라고 부른다.
1.1.2.3 층화추출(Stratified Sampling)
모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법.
전체 모집단뿐만 아니라 각 층의 특성에 대한 추정도 할 수 있다는 장점.
각 층으로부터 표본을 추출할 때 단순랜덤추출 방법을 쓸 수도 있고 계통추출 등 다른 추출 방법을 쓸 수 있음.
필요에 따라 각 층을 다시 하위층으로 나누어 추출하는 다단계 층화추출을 하기도 함.
1.1.2.4 집락추출(Cluster Sampling)
모집단이 몇 개의 집단으로 구성되어 있는 경우 사용할 수 있음. 그 집단 중에서 임의로 몇 개의 집단을 골라 표본을 임의로 추출하는 방법.
다단계 표집 방법 - 그 표본에 대하여 다시 집단을 나누고, 그 집단 중 임의로 몇 개의 집단을 선택하는 과정을 몇 단계 거친 후, 마지막으로 선정된 각 집단에서 표본으로 추출하는 방법.
'@@@ 데이터분석 > 데이터 분석의 모든 것' 카테고리의 다른 글
Chapter 1. 기초 통계 - 1.4 가설 검정 (0) | 2021.09.10 |
---|---|
Chapter 1. 기초 통계 - 1.3 정규분포와 표준화 (0) | 2021.09.08 |
Chapter 1. 기초 통계 - 1.2 기초 통계량과 확률 (0) | 2021.09.08 |
Part 1. 비전공자를 위한 기초 지식 (통계, R) (0) | 2021.09.06 |
Part 0. 준비 (0) | 2021.09.06 |