패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠2 (2024-01-17) 통계 ANOVA(Analysis of Variance) 여러 그룹 간의 평균 차이를 통계적으로 비교하는 방법 데이터의 분산을 분석하여 그룹 간의 차이를 확인하고, 그 차이가 우연에 의한 것인지 아니면 통계적으로 유의미한 차이인지 판단하는 데 사용 주로 세 개 이상의 그룹 간의 평균 차이를 비교하는 데 적용 대표적인 가정Assumption 왜도(Skewness)와 이상치(Outlier)가 제일 중요 Remedy: Normality QQplot(순서반영 차트)으로 확인하는 것이 가장 낫다 그 외 Shapiro, Kolmogorov Remedy: Independency 공간적 자기상관성: e.g. 하남의 한 집 가격이 오르면 주변 집들의 가격도 오른다 시간적 자기상관성: e.g. 핵심: 내 모델이 문제가 있는지 여.. 2024. 1. 24. (2023-12-29) Python EDA 타이타닉 탑승자 데이터를 이용하여 생존자를 예측하는 분석을 해보았다 data # Pclass: 티켓클래스 # SibSp: 함께 탑승한 형제 및 배우자의 수 # Parch: 함께 탑승한 부모 및 자녀의 수 # Embarked: 승선한 항구 # Survived: 1=생존/ 0=사망 data.corr() # 각 변수 간의 상관관계(-1 ~ +1) # 변수간 상관관계에 대한 히트맵 import matplotlib.pyplot as plt import seaborn as sns sns.heatmap(data.corr(), cmap='coolwarm', vmin=-1, vmax=1, annot=True) plt.show() # cmap='coolwarm': 0을 기준으로 대칭이 되는 색상 배열을 사용(상관관계의 강.. 2024. 1. 10. 이전 1 다음