728x90
- House Price Prediction
- 주어진 데이터를 활용하여 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 경진대회
- March 21, 2024 - Start Date
- April 1, 2024 - Final submission deadline
- RMSE(Root Mean Squared Error)
- Models
- 대회에서 제공된 데이터셋을 기반으로 모델을 학습하고, 서울시 각 지역의 아파트 매매 실거래가를 예측
- 제공된 데이터셋
- 국토교통부에서 제공하는 아파트 실거래가 데이터 : 위치, 크기, 건축년도, 주변 시설 및 교통 편의성과 같은 다양한 특징들을 포함
- 추가데이터 : 지하철역, 버스정류장 데이터 포함
- train set: 2007.01 ~ 2023.06
- test set: 2023.07 ~ 2023.09
- 데이터가 출처가 다른 2개를 outer join으로 합쳐져서 제공된 것으로 추정
- 출처별로 데이터프레임을 분리하여 각각 예측을 수행
- 예측하고자 하는 ‘target(가격)’은 시계열데이터
- 트리모델 이외 LSTM, Moving Average 등의 방법 시도
- ‘Target’(가격) 관련 Feature
- 평가 방법인 RMSE 계산 수식상 test data에 있는 고가격대 주택을 잘 예측하는 것이 중요
- 가격이 비싼 아파트를 구분하는 feature 생성
- ‘top_5_pct’ : ‘target’값 중 상위 5%에 해당하는 데이터
- ‘luxury_apt’ : ‘동+아파트명’을 기준으로 2023년 평균 거래가격이 20억원 이상인 데이터
- ‘전용면적’ : 가격과 높은 상관관계가 있어 역시 중요
- 위치 관련 Feature
- 크롤링으롤 X좌표, Y좌표 결측치를 채워서 ‘주소’피처를 새롭게 생성
- 건물 관련 Feature
- 건축년도 보다는 계약시점의 건물나이를 계산하는 feature 생성
- ‘apt_age’ = ‘계약년도’ - ‘건축년도’
- 아파트 면적 관련 중복칼럼 삭제
- 개별세대가 아닌 단지 전체면적에 대한 정보는 1개의 피처만 선별하여 사용
- 건축년도 보다는 계약시점의 건물나이를 계산하는 feature 생성
- 기타
- 직전 거래 날짜 & 간격차이 Feature
- 이전 거래의 가격이 현재의 가격을 얼마나 잘 설명하는지
- 그외 불필요하다고 판단되는 feature 제거
- Permutation Importance
- RFECV(Recursive Feature Elimination with Cross-Validation)
- 직전 거래 날짜 & 간격차이 Feature
최종순위: 5위(RMSE:13331.0750)
728x90
'AI' 카테고리의 다른 글
Computer Vision 경진대회 (0) | 2024.04.26 |
---|---|
(2024-04-05) Backbone 이해하기: AlexNet, VGG (0) | 2024.04.05 |
(2024-03-14) Hydra (1) | 2024.03.14 |
(2024-03-14) Pytorch Lightning (0) | 2024.03.14 |
(2024-02-02) XGBoost와 아이들 (0) | 2024.02.02 |