반응형
타이타닉 탑승자 데이터를 이용하여 생존자를 예측하는 분석을 해보았다
data
# Pclass: 티켓클래스
# SibSp: 함께 탑승한 형제 및 배우자의 수
# Parch: 함께 탑승한 부모 및 자녀의 수
# Embarked: 승선한 항구
# Survived: 1=생존/ 0=사망
data.corr()
# 각 변수 간의 상관관계(-1 ~ +1)
# 변수간 상관관계에 대한 히트맵
import matplotlib.pyplot as plt
import seaborn as sns
sns.heatmap(data.corr(), cmap='coolwarm', vmin=-1, vmax=1, annot=True)
plt.show()
# cmap='coolwarm': 0을 기준으로 대칭이 되는 색상 배열을 사용(상관관계의 강도를 절댓값 기준으로 해석하기 때문에)
# vmin, vmax: 데이터 범위의 최솟값,최댓값을 지정
# annot=True: 각 칸에 상관관계 수치를 표시
# 관계가 강할수록 더 진하게 표시
# 참고) seaborn 색상 배열: seaborn palette
# 문자 형태의 변수들을 one-hot encoding
pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)
# drop_first=True: male/female 중 하나만 있으면 된다. 필요없는 칼럼을 제거.
# 아직 data에 저장하지는 않은 상황(data=pd.get_dummies~ 하면 결과를 출력하지 않음)
data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)
# 더미를 최종 데이터에 저장
반응형
'AI' 카테고리의 다른 글
(2024-02-02) XGBoost와 아이들 (0) | 2024.02.02 |
---|---|
(2024-01-17) 통계 (0) | 2024.01.24 |
(2023-12-26) 파이썬 프로젝트: 웹크롤링 (0) | 2023.12.28 |
(2023-12-13) 왜 파이썬인가 / (0) | 2023.12.13 |
(2023-12-12) 특강 (0) | 2023.12.12 |