Titanic - Machine Learning from Disaster | Kaggle
타이타닉 튜토리얼 2 - Exploratory data analysis, visualization, machine learning (tistory.com)
# 3 Feature engineering
## 3.1 Fill Null
### Fill Null in Age using title
age에 null 값이 많은데 이를 채우기 위해서 name의 title을 사용해보는 것.
Mr, Miss, Mrs 와 같은 타이틀을 분류하고 남여분포를 보는 작업을 하고 이를 통일성있게 바꿔준다.
이렇게하고 생존률을 보았을 때, Miss와 Mrs가 생존률이 높은 것으로 볼 수 있다.
이제 실제로 Initial을 가지고 null값을 채워보자.
각 Initial의 나이 평균값으로 대체해서 넣어준다.
### Fill Null in Embarked
Embarked는 Null이 2개라 가장 많은 S로 대체해서 넣음
## 3.2 Change Age
continuous 한 Age를 categorycial 하게 바꿔서 해보기로 한다.
하지만 이렇게하면 information loss가 생길 수 있다.
## 3.3 Change Initial, Embarked and Sex
string인 feature들을 numeric하게 변화 (이를 Labeling 이라고 한다.)
이를 요즘에는 sklearn의 LabelEncoder를 사용
## 3.4 One-hot encoding on Initial and Embarked
pandas의 get_dummies를 활용하여 원핫인코딩을 한다.
## 3.5 Drop Columns
그리고 이제 필요없는 column 을 지운다.
# 4 Building machine learning model and prediction using the trained model
model을 준비 다른 여러 모델이 있지만 제일 무난한 랜덤포레스트
## 4.1 Preparation - Split dataset into train, valid, test set
train, valid 구분
## 4.2 Model generation and prediction
model 생성 및 예측
## 4.3 Feature importance
중요 feature 확인
## 4.4 Prediction on Test set
제출
'@@@ 데이터분석 > Kaggle' 카테고리의 다른 글
[Kaggle] XGBoost 알아보기 (0) | 2023.01.05 |
---|---|
[Kaggle] Titanic 성능 향상(23.01.04) (0) | 2023.01.04 |
[Kaggle] Titanic 연습해보기 (1) | 2022.12.30 |
[Kaggle] Kaggel 자주 사용하는 함수 (0) | 2022.12.27 |
[Kaggle] 분류 문제 - Titanic - Machine Learning from Disaster (1) (0) | 2022.12.26 |