728x90

@@@ 데이터분석/데이터 분석의 모든 것 12

Chapter 3. 탐색적 데이터 분석 - 3.1 탐색적 데이터 분석 개요

키워드 : mean() 함수, median() 함수, min() 함수, max() 함수, var() 함수, sd() 함수, quantile() 함수, boxplot() 함수, hist() 함수, cut() 함수, table() 함수, barplot() 함수, pie() 함수, cor() 함수, heatmap() 함수 더보기 mean() 함수 : 평균 / median() 함수 : 중앙값 min() 함수 : 최소값 / max() 함수 : 최대값 var() 함수 : 분산 / sd() 함수 : 표준편차 quantile() 함수 : 사분위수, 백분위수 boxplot() 함수 : 상자그림 / hist() 함수 : 히스토그램 cut() 함수 : 수치 데이터의 도수분포표 / table() 함수 : 범주형 데이터의 도수..

Part 2. 데이터 마트와 통계 분석

Chapter 3. 탐색적 데이터 분석 3.1 탐색적 데이터 분석 개요 3.1.1 데이터 대표값 탐색 3.1.1.1 평균과 중앙값 3.1.1.2 절사평균 3.1.1.3 가중평균 3.1.2 데이터 분산도 탐색 3.1.2.1 최소값, 최대값으로 범위 탐색 3.1.2.2 분산과 표준편차 3.1.3 데이터 분포 탐색 3.1.3.1 백분위수와 사분위수 3.1.3.2 상자그림 3.1.3.3 히스토그램 3.1.3.4 도수분포표 3.1.3.5 막대 그래프 3.1.3.6 파이 그래프 3.1.4 변수 간 관계 탐색 3.1.4.1 산점도 그래프 3.1.4.2 상관계수 3.1.4.3 상관행렬 3.1.4.4 상관행렬 히트맵 ■ 연습 문제 Chapter 4. 데이터 준비(전처리) 4.1 데이터 전처리 4.1.1 데이터 변환, 처..

Chapter 2. R 프로그래밍 - 2.5 R을 이용한 데이터 조작 방법

키워드 : head() 함수, tail() 함수, str() 함수, summary() 함수, dim() 함수, read.csv() 함수, read.xlsx() 함수, fread() 함수 더보기 head() 함수 : 첫 번째 행부터 6번째 행까지 추출. tail() 함수 : 마지막 행부터 6개의 행까지 추출. str() 함수 : 데이터의 구조를 파악. summary() 함수 : 숫자 데이터의 각 열별 최소값, 1사분위수, 중앙값, 3사분위수, 최대값, 평균을 구함. dim() 함수 : 데이터의 차원을 확인. read.csv() 함수 : csv 파일을 불러옴. read.xlsx() 함수 : 이용하여 엑셀 파일을 읽어옴. fread() 함수 : 빠른 속도로 데이터를 읽어올 수 있어 빅데이터 파일을 읽을 때 매..

Chapter 2. R 프로그래밍 - 2.4 R 기초 프로그래밍

키워드 : if ~ else 문, for 문, 함수 정의, 함수 호출, 매개변수, NULL, NA, Inf, NaN 더보기 if 문 : 소괄호 안에 조건을 쓰고, 그 조건이 TRUE이면 if 문 뒤 { } 안의 문장이 수행된다. 조건이 FALSE이면 else 문 뒤 { } 안의 문장이 수행. for 문 : 문장이 여러 번 수행할 수 있도록 제어하는 반복문. 함수 정의 : 함수에 프로그램 코드를 저장하는 것 함수 호출 : 함수 이름으로 저장된 프로그램 코드를 불러(호출하여) 실행하는 것 매개변수 : 함수 외부에서 데이터를 받아 저장할 변수 NULL : 변수에 값이 아직 정해지지 않았다는 의미로 변수를 초기화할 때 사용하는 상수. NA : 데이터 분석에서 중요한 용어인 결측값을 의미하는 상수. Inf : 무..

Chapter 2. R 프로그래밍 - 2.3 데이터 구조

키워드 : 벡터, 매트릭스, 데이터프레임, 배열, 리스트 더보기 벡터 : 하나 이상의 데이터를 저장할 수 있는 1차원 저장 구조. 벡터 안의 데이터는 모두 같은 타입. 매트릭스 : 표 형태와 같은 2차원 데이터 저장 구조. 매트릭스 안의 데이터는 벡터와 마찬가지로 모두 같은 데이터 타입. 데이터프레임 : 매트릭스처럼 행과 열을 가진 2차원 구조. 벡터, 매트릭스와 다른 점은 각 열별로 서로 다른 데이터 타입을 가질 수 있다는 점. 배열 : 다차원 데이터 저장 구조. 벡터나 매트릭스처럼 동일한 데이터 타입으로 저장. 리스트 : 다차원 데이터 저장 구조. 배열과 다른 점은 키와 값 쌍으로 저장되며 값에 해당하는 데이터가 벡터, 매트릭스, 배열, 리스트 등 어떠한 데이터 종류도 가능. 2.3.1 벡터(vect..

Chapter 2. R 프로그래밍 - 2.2 변수와 데이터 타입

키워드 : 변수, 변수이름, 숫자타입, 문자타입, 논리타입, 펙터타입 더보기 변수 : 데이터를 저장할 수 있는 공간을 가지고 있으면서 변수 이름으로 그 공간에 데이터를 저장하거나 수정하거나 불러올 수 있는 것을 말함. 변수 이름 : 지켜야 하는 최소한의 규칙이 있으며 그 규칙을 따르면서 프로그래머가 기억하기 좋고 의미있는 이름으로 작성. R 의 데이터 타입 : 숫자타입, 문자타입, 논리타입, 펙터타입 등 펙터타입 : 범주형 데이터를 저장하기 위한 타입. 2.2.1 변수 프로그래밍 언어에서 데이터를 저장할 수 있는 공간을 가지고 있으면서 변수 이름으로 그 공간에 데이터를 저장하거나 수정하거나 불러올 수 있는 것. 통계학에서의 변수는 행과 열로 이루어진 데이터셋에서 열을 변수라고 하며 의미가 다름. 2.2...

Chapter 1. 기초 통계 - 1.4 가설 검정

키워드 : 통계적 가설, 귀무가설, 대립가설, 유의확률, 유의수준, t-검정, ANOVA 더보기 통계적 가설 : 통계학에서 사용하는 용어. 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭. 귀무가설 : '차이가 없거나 의미있는 차이가 없다'를 기본 전제로 하는 가설. 대립가설 : '차이가 있다'고 보는 가설. 연구자가 입증되기를 기대하는 가설. 유의확률 : 실제로는 차이가 없는데 우연히 집단 간의 차이가 있는 데이터가 추출되었을 확률을 말함. 유의수준 : 유의확률값을 '크다' 또는 '작다'로 판단하는 기준. t-검정 : 두 집단의 유의하게 차이가 있는 지를 판별할 때 표본의 평균값을 활용하는 검정. ANOVA : 집단 간 차이를 검정하는 데 표본의 분산을 활용하는 검정. 1.4.1 통계적 가설 통계..

Chapter 1. 기초 통계 - 1.3 정규분포와 표준화

키워드 : 정규분포, 중심극한정리, 표준화, 표준정규분포, Z-분포 더보기 정규분포의 모양은 평균과 표준편차에 의해서 결정되는데 그래프로 표현하면 좌우대칭의 종모양. 중심극한정리 - '모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다'는 정리 표준화 - 값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용. 정규분포를 표준화시키면 표준정규분포가 생성. 표준정규분포는 평균이 0, 표준편차가 1인 정규분포. 표준정규분포는 X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 부름. 1.3.1 정규분포(normal distribution) 가우시안분포(Gaussian distribution)라고도 ..

Chapter 1. 기초 통계 - 1.2 기초 통계량과 확률

키워드 : 산술평균, 중앙값, 최빈값, 분산도, 범위, 평균, 편차, 분산, 표준편차 더보기 평균 - 주어진 수의 합을 수의 개수로 나눈 값. 집중화 경향을 나타내는 척도 중 가장 많이 사용. 중앙값 - 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미. 최빈값 - 가장 많이 관측되는 수. 즉, 주어진 값 중에서 가장 자주 나오는 값. 분산도 - 데이터가 흩어져 있는 정도를 말하며 이를 나타내는 방법으로는 범위, 평균편차, 분산, 표준편차 등이 있음. 범위 - 단순히 최대값과 최소값의 차를 나타내는 값으로 간단히 구할 수는 있지만 분포의 양상은 설명하지 못함. 평균편차(절대편차) - 평균과 개별 관측값 사이 거리의 평균 분산 - 분산도를 구하는 것에 있어서 분포의 양상을 평..

Chapter 1. 기초 통계 - 1.1 통계 개요

키워드 : 모집단, 표본, 모수, 통계량, 명목척도, 서열척도, 순서척도, 등간척도, 구간척도, 비율척도 더보기 모집단 - 정보를 얻고자 하는 관심 대상의 전체 집합 표본 - 모집단의 부분 집합 모수 - 모집단의 특성을 수치로 나타낸 것 통계량 - 표본의 특성을 수치로 나타낸 것 데이터의 측정 수준에 따라 명목척도, 서열척도, 등간척도, 비율척도로 구분 명목척도 - 관측 대상의 특성을 분류하는 척도 서열척도, 순서척도 - 크고 작음 등 순서가 표현되는 척도 등간척도, 구간척도 - 측정 대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수 있는 척도 비율척도 - 구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도 1.1.1 통계학의 중요 용어와 개념 통계학은 관찰 및 조사..

728x90