본문 바로가기
AI

(2023-12-29) Python EDA

by busybee-busylife 2024. 1. 10.
반응형

타이타닉 탑승자 데이터를 이용하여 생존자를 예측하는 분석을 해보았다 

data
# Pclass: 티켓클래스
# SibSp: 함께 탑승한 형제 및 배우자의 수
# Parch: 함께 탑승한 부모 및 자녀의 수
# Embarked: 승선한 항구
# Survived: 1=생존/ 0=사망

data.corr()
# 각 변수 간의 상관관계(-1 ~ +1)

# 변수간 상관관계에 대한 히트맵
import matplotlib.pyplot as plt
import seaborn as sns

sns.heatmap(data.corr(), cmap='coolwarm', vmin=-1, vmax=1, annot=True)  
plt.show()
# cmap='coolwarm': 0을 기준으로 대칭이 되는 색상 배열을 사용(상관관계의 강도를 절댓값 기준으로 해석하기 때문에)
# vmin, vmax: 데이터 범위의 최솟값,최댓값을 지정
# annot=True: 각 칸에 상관관계 수치를 표시
# 관계가 강할수록 더 진하게 표시
# 참고) seaborn 색상 배열: seaborn palette

# 문자 형태의 변수들을 one-hot encoding
pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)
# drop_first=True: male/female 중 하나만 있으면 된다. 필요없는 칼럼을 제거.
# 아직 data에 저장하지는 않은 상황(data=pd.get_dummies~ 하면 결과를 출력하지 않음)

data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)
# 더미를 최종 데이터에 저장

 

반응형

'AI' 카테고리의 다른 글

(2024-02-02) XGBoost와 아이들  (0) 2024.02.02
(2024-01-17) 통계  (0) 2024.01.24
(2023-12-26) 파이썬 프로젝트: 웹크롤링  (0) 2023.12.28
(2023-12-13) 왜 파이썬인가 /  (0) 2023.12.13
(2023-12-12) 특강  (0) 2023.12.12