분류 전체보기94 [통계학개론] 표본분포(정규분포, 카이제곱분포, t분포, F분포) 통계 공부한 지 오래되어 책을 하나 사서 쭉 읽었다. 확률분포 vs. 표본분포 개념이 헷갈린다. 통계량(표본의 특성)은 표본분포를 갖는다. ChatGPT는 확률분포는 모집단, 표본분포는 표본 이라고 하는데 이 책에서 통계량(statistics): 다른 표본이 추출되면 다른 값을 갖게 되는 확률변수로서 확률분포를 가진다 라고 나온다. ChatGPT가 잘못 설명한 듯 하다. 아래에 온라인 강의로 배운 내용과 함께 정리했다. 정규분포: 평균과 표준편차로 결정된다 중심극한정리: 표본의 크기가 커질수록 표본평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다 카이제곱분포 모분산을 구하는 것 분산의 특징을 확률 분포로 만든 것(따라서 마이너스가 없다) 자유도가 높을수록 정규분포에 근접 Student-.. 2024. 2. 2. (2024-02-02) XGBoost와 아이들 XGBoost 계열 모델은 하이퍼파라미터 튜닝이 매우 중요 하이퍼파라미터 튜닝보다는 피처 엔지니어링이 중요하긴 함 LgighGBM: depth를 여유롭게 잡고, 그 여유로운 범위 내에서 리프노드의 갯수를 제한하도록 셋팅 리프들만 확장하는 방식으로 성능 향상 num_leaves: 실효성이 있으려면 2의 최대제곱보다 작아야 의미가 있다 colsample_bynode 옵션이 아예 없음 colsample_bytree를 사용 GPU 사용시 이슈가 많음(안되는 경우가 많다) CatBoost Categorical feature 학습을 잘하도록 설계 Categorical feature가 많을때 사용하면 좋다(Categorical feature의 비율이 50% 이상) 칼럼 갯수는 200개 이하일 때 사용 row 갯수는 .. 2024. 2. 2. 아메리칸 프로메테우스 직전에 폰 노이만에 대한 책을 읽었는데어쩌다보니 동시대를 살아간 두 명의 천재에 대한 책을 읽게 되었다.(폰 노이만 책도 리뷰를 써야하는데 ㅠㅠ) 이 책을 읽고 오펜하이머의 팬이 되어버렸다. 정치에 휘둘려 말년에 업적을 인정받지 못한 점이 안타깝고, 유럽과 미국에서 저렇게 왕성하게 학문적 성과를 이뤄내고 있을때 우리나라는 처참한 일제치하 식민지 시대를 겪고 있었던 점이 안타깝고, 이 책을 원작으로 한 크리스토퍼 놀란의 영화에서 생략된 부분이 너무 많아 안타깝고, 책에서와 달리 영화에서는 오피가 별로 매력적인 캐릭터가 아니라 안타까웠다..... 가령,책에서는 오펜하이머의 옛 애인 '진'의 캐릭터가 아주 흥미로웠다.(물론 오피와 키티 다음으로..) 오피는 아내 '키티'를 만나기 이전 '진'과 약 4년 가.. 2024. 1. 25. (2024-01-17) 통계 ANOVA(Analysis of Variance) 여러 그룹 간의 평균 차이를 통계적으로 비교하는 방법 데이터의 분산을 분석하여 그룹 간의 차이를 확인하고, 그 차이가 우연에 의한 것인지 아니면 통계적으로 유의미한 차이인지 판단하는 데 사용 주로 세 개 이상의 그룹 간의 평균 차이를 비교하는 데 적용 대표적인 가정Assumption 왜도(Skewness)와 이상치(Outlier)가 제일 중요 Remedy: Normality QQplot(순서반영 차트)으로 확인하는 것이 가장 낫다 그 외 Shapiro, Kolmogorov Remedy: Independency 공간적 자기상관성: e.g. 하남의 한 집 가격이 오르면 주변 집들의 가격도 오른다 시간적 자기상관성: e.g. 핵심: 내 모델이 문제가 있는지 여.. 2024. 1. 24. (2023-12-29) Python EDA 타이타닉 탑승자 데이터를 이용하여 생존자를 예측하는 분석을 해보았다 data # Pclass: 티켓클래스 # SibSp: 함께 탑승한 형제 및 배우자의 수 # Parch: 함께 탑승한 부모 및 자녀의 수 # Embarked: 승선한 항구 # Survived: 1=생존/ 0=사망 data.corr() # 각 변수 간의 상관관계(-1 ~ +1) # 변수간 상관관계에 대한 히트맵 import matplotlib.pyplot as plt import seaborn as sns sns.heatmap(data.corr(), cmap='coolwarm', vmin=-1, vmax=1, annot=True) plt.show() # cmap='coolwarm': 0을 기준으로 대칭이 되는 색상 배열을 사용(상관관계의 강.. 2024. 1. 10. (2023-12-26) 파이썬 프로젝트: 웹크롤링 온라인 쇼핑몰에서 내가 원하는 부분의 리뷰 데이터만 가져오는 웹크롤링을 해보기로 했다 1. 리뷰의 일부만 보여주는 부분을 '더보기' 버튼을 눌러서 더 많은 데이터를 펼쳐주는 함수 def click_show_more_button(browser): try: # Find and click the "더보기" button more_button = browser.find_element(By.ID, 'btnMoreGod') more_button.click() # Wait for the content to load (adjust the timeout as needed) WebDriverWait(browser, 10).until(EC.staleness_of(more_button)) except Exception as e.. 2023. 12. 28. 이전 1 ··· 12 13 14 15 16 다음 반응형