728x90

@@@ 데이터분석 19

[Kaggle] Titanic XGBoost 조정해보기

앞서 포스팅한 XGBoost에 관해서 파라미터를 수정해보면서 성능을 늘려 보고자 하였다. [Kaggle] XGBoost 알아보기 (tistory.com) [Kaggle] XGBoost 알아보기 XGBoost Documentation — xgboost 1.7.2 documentation XGBoost Documentation — xgboost 1.7.2 documentation © Copyright 2022, xgboost developers. Revision 62ed8b5f. xgboost.readthedocs.io Python API Reference — xgboost 2.0.0-dev documentation Python API h-study.tistory.com 4가지 파라미터를 조정해보고자 하였다..

[Kaggle] Kaggel 자주 사용하는 함수

EDA .describe() count, mean, std, min, max, quantile 과 같은 숫자 관련 feature 들에 대한 정보를 알려준다. .describe(include="all") 숫자 관련 feature 이외에도 모든 feature에 대한 정보를 알려준다. .info() 어떤 feature의 null 값, 데이터타입 등을 알려준다. [].value_counts() Col1의 값의 빈도를 보여준다. Null 값 확인 및 처리 .isnull() Null 값인 cell 을 찾아준다. 하지만 DataFrame 형태로 나오기 때문에 다 표시가 되지 않기 때문에 뒤에 sum()을 해서 null 값인 갯수를 찾는다. import missingno as msno msno.matrix(df=, f..

[Kaggle] 분류 문제 - Titanic - Machine Learning from Disaster (2)

Titanic - Machine Learning from Disaster | Kaggle Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 타이타닉 튜토리얼 2 - Exploratory data analysis, visualization, machine learning (tistory.com) 타이타닉 튜토리얼 2 - Exploratory data analysis, visualization, machine learning My_kernel_chapter_Feature_engineering 본 튜토리얼을 설명한 강의가 제 유투브에 있으니 참고하시면 됩니다^^¶ https://www.youtube.com/channel/UC--LgKcZVgff..

[Kaggle] 분류 문제 - Titanic - Machine Learning from Disaster (1)

Titanic - Machine Learning from Disaster | Kaggle Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 일단 필사를 위주로 다시 시작해보기 타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning (tistory.com) 타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning My_kernel_chapter_data_check_EDA /*!** Twitter Bootstrap**//*! * Bootstrap v3.3.7 (http://getbootstrap...

Chapter 3. 탐색적 데이터 분석 - 3.1 탐색적 데이터 분석 개요

키워드 : mean() 함수, median() 함수, min() 함수, max() 함수, var() 함수, sd() 함수, quantile() 함수, boxplot() 함수, hist() 함수, cut() 함수, table() 함수, barplot() 함수, pie() 함수, cor() 함수, heatmap() 함수 더보기 mean() 함수 : 평균 / median() 함수 : 중앙값 min() 함수 : 최소값 / max() 함수 : 최대값 var() 함수 : 분산 / sd() 함수 : 표준편차 quantile() 함수 : 사분위수, 백분위수 boxplot() 함수 : 상자그림 / hist() 함수 : 히스토그램 cut() 함수 : 수치 데이터의 도수분포표 / table() 함수 : 범주형 데이터의 도수..

Part 2. 데이터 마트와 통계 분석

Chapter 3. 탐색적 데이터 분석 3.1 탐색적 데이터 분석 개요 3.1.1 데이터 대표값 탐색 3.1.1.1 평균과 중앙값 3.1.1.2 절사평균 3.1.1.3 가중평균 3.1.2 데이터 분산도 탐색 3.1.2.1 최소값, 최대값으로 범위 탐색 3.1.2.2 분산과 표준편차 3.1.3 데이터 분포 탐색 3.1.3.1 백분위수와 사분위수 3.1.3.2 상자그림 3.1.3.3 히스토그램 3.1.3.4 도수분포표 3.1.3.5 막대 그래프 3.1.3.6 파이 그래프 3.1.4 변수 간 관계 탐색 3.1.4.1 산점도 그래프 3.1.4.2 상관계수 3.1.4.3 상관행렬 3.1.4.4 상관행렬 히트맵 ■ 연습 문제 Chapter 4. 데이터 준비(전처리) 4.1 데이터 전처리 4.1.1 데이터 변환, 처..

Chapter 2. R 프로그래밍 - 2.5 R을 이용한 데이터 조작 방법

키워드 : head() 함수, tail() 함수, str() 함수, summary() 함수, dim() 함수, read.csv() 함수, read.xlsx() 함수, fread() 함수 더보기 head() 함수 : 첫 번째 행부터 6번째 행까지 추출. tail() 함수 : 마지막 행부터 6개의 행까지 추출. str() 함수 : 데이터의 구조를 파악. summary() 함수 : 숫자 데이터의 각 열별 최소값, 1사분위수, 중앙값, 3사분위수, 최대값, 평균을 구함. dim() 함수 : 데이터의 차원을 확인. read.csv() 함수 : csv 파일을 불러옴. read.xlsx() 함수 : 이용하여 엑셀 파일을 읽어옴. fread() 함수 : 빠른 속도로 데이터를 읽어올 수 있어 빅데이터 파일을 읽을 때 매..

728x90