@@@ 데이터분석/Kaggle

[Kaggle] 분류 문제 - Titanic - Machine Learning from Disaster (2)

HTG 2022. 12. 26. 16:57
728x90

Titanic - Machine Learning from Disaster | Kaggle

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

타이타닉 튜토리얼 2 - Exploratory data analysis, visualization, machine learning (tistory.com)

 

타이타닉 튜토리얼 2 - Exploratory data analysis, visualization, machine learning

My_kernel_chapter_Feature_engineering 본 튜토리얼을 설명한 강의가 제 유투브에 있으니 참고하시면 됩니다^^¶ https://www.youtube.com/channel/UC--LgKcZVgffjsxudoXg5pQ Contents 3 Feature engineering 3.1 Fill Null data 3.1.1 Fill Nul

kaggle-kr.tistory.com

 

# 3 Feature engineering

 

## 3.1 Fill Null

### Fill Null in Age using title

age에 null 값이 많은데 이를 채우기 위해서 name의 title을 사용해보는 것.

Mr, Miss, Mrs 와 같은 타이틀을 분류하고 남여분포를 보는 작업을 하고 이를 통일성있게 바꿔준다.

이렇게하고 생존률을 보았을 때, Miss와 Mrs가 생존률이 높은 것으로 볼 수 있다.

이제 실제로 Initial을 가지고 null값을 채워보자.

각 Initial의 나이 평균값으로 대체해서 넣어준다.

 

 

### Fill Null in Embarked

Embarked는 Null이 2개라 가장 많은 S로 대체해서 넣음

 

 

## 3.2 Change Age

continuous 한 Age를 categorycial 하게 바꿔서 해보기로 한다.

하지만 이렇게하면 information loss가 생길 수 있다.

loc을 사용한 방법과 apply를 사용하여 바꿔줄 수 있다.

 

## 3.3 Change Initial, Embarked and Sex

string인 feature들을 numeric하게 변화 (이를 Labeling 이라고 한다.)

이를 요즘에는 sklearn의 LabelEncoder를 사용

 

## 3.4 One-hot encoding on Initial and Embarked

pandas의 get_dummies를 활용하여 원핫인코딩을 한다.

 

## 3.5 Drop Columns

그리고 이제 필요없는 column 을 지운다.

 

# 4 Building machine learning model and prediction using the trained model

model을 준비 다른 여러 모델이 있지만 제일 무난한 랜덤포레스트

 

## 4.1 Preparation - Split dataset into train, valid, test set

train, valid 구분

 

## 4.2 Model generation and prediction

model 생성 및 예측

 

 

## 4.3 Feature importance 

중요 feature 확인

 

## 4.4 Prediction on Test set 

제출