@@@ 데이터분석/데이터 분석의 모든 것

Part 2. 데이터 마트와 통계 분석

HTG 2021. 10. 8. 02:05
728x90

Chapter 3. 탐색적 데이터 분석

3.1 탐색적 데이터 분석 개요

3.1.1 데이터 대표값 탐색

3.1.1.1 평균과 중앙값

3.1.1.2 절사평균

3.1.1.3 가중평균

 

3.1.2 데이터 분산도 탐색

3.1.2.1 최소값, 최대값으로 범위 탐색

3.1.2.2 분산과 표준편차

 

3.1.3 데이터 분포 탐색

3.1.3.1 백분위수와 사분위수

3.1.3.2 상자그림

3.1.3.3 히스토그램

3.1.3.4 도수분포표

3.1.3.5 막대 그래프

3.1.3.6 파이 그래프

 

3.1.4 변수 간 관계 탐색

3.1.4.1 산점도 그래프

3.1.4.2 상관계수

3.1.4.3 상관행렬

3.1.4.4 상관행렬 히트맵

 

■ 연습 문제

 

Chapter 4. 데이터 준비(전처리)

4.1 데이터 전처리

4.1.1 데이터 변환, 처리

4.1.1.1 데이터 마트

4.1.1.2 파생변수

4.1.1.3 요약 변수

4.1.1.4 R의 reshape2 패키지를 활용한 데이터셋 구조의 변형

 

4.1.2 결측값 처리

4.1.2.1 결측값 처리 방법

4.1.2.2 R의 결측값 관련 함수

 

4.1.3 이상값 검색

4.1.3.1 이상값의 인식 방법

4.1.3.2 산점도 그래프, 줄기-잎 그림, 상자그림을 이용한 이상값 검색 예제

4.1.3.3 outlier 패키지를 이용한 이상값 검색 예제

 

4.1.4 데이터 정규화

4.1.4.1 표준정규분포 Z-변환

4.1.4.2 [0 -1] 변환

4.1.4.3 중심극한정리

 

4.2 차원 축소

4.2.1 차원 축소의 필요성

4.2.2 주성분분석

4.2.3 요인분석

 

4.3 변수 선택

4.3.1 변수 선택 방법

4.3.2 상관계수

4.3.3 카이제곱검정

4.3.3 0에 가까운 분산

 

■ 연습 문제

 

 

Chapter 5. 통계 기반 데이터 분석

5.1 기술 통계와 추론 통계

5.1.1 기술 통계

5.1.2 추론 통계

5.1.2.1 귀무가설과 대립가설

5.1.2.2 유의수준과 유의확률

5.1.2.3 점추정과 구간추정

5.1.2.4 t.test() 함수를 활용한 t-검정

5.1.2.5 분산분석

 

5.2 상관분석

5.2.1 분석 방법

5.2.1.1 피어슨 상관계수

5.2.1.2 스피어만 상관계수

5.2.2 상관계수 검정

 

5.3 선형회귀분석

5.3.1 단순선형회귀

5.3.1.1 모델 생성

5.3.1.2 잔차

5.3.1.3 예측

5.3.1.4 결정계수와 수정된 결정계수

5.3.1.5 단순회귀 모델의 시각화

 

5.3.2 다중선형회귀

5.3.2.1 모델 생성

5.3.2.2 잔차

5.3.2.3 예측

5.3.2.4 결정계수와 수정된 결정계수

5.3.2.5 단순회귀 모델의 시각화

5.3.3 모델 진단 그래프

5.3.4 회귀분석 모델의 체크사항

 

5.4 시계열 분석

5.4.1 시계열 데이터 개요

5.4.2 정상성

5.4.3 비정상 시계열을 정상 시계열로 전환하는 방법

5.4.4 시계열 모델

5.4.4.1 자기회귀 모델

5.4.4.2 이동평균 모델

5.4.4.3 자기회귀 누적이동평균 모델

5.4.4.4 분해시계열

 

5.5 주성분분석

5.5.1 주성분분석 개요

5.5.2 주성분분석 과정 설명

5.5.3 주성분분석 목적

5.5.4 주성분분석의 예

5.5.5 주성분분석 해석

5.5.6 적절한 주성분 개수 선택법

 

■ 연습 문제