서울시 따릉이 데이터 분석 및 예측하기
2023. 9. 12.
지난 2021년, 빅데이터를 융합전공하면서 했던 첫 미니프로젝트를 인턴십에서 발표하게 됐다. 솔직히 2년이나 지난 일이라 잘 기억나지 않기도 하고... 지금보니 이상치 제거와 연속 & 범주 데이터가 같이 있는데 정규화도 되어있지 않은 걸 보니 너무 끔찍(?)해서 정리도 할겸, 다시 EDA 해보기로 결정했다. Problem 예측: Regression 종속 변수 : 따릉이 대여 수(count, integer) 사용된 예측 변수 Hour : 시간, 0부터 23까지의 integer 날씨 변수 : temperature, precipitation(mm) -> float 공휴일 여부(0/1) 1시간 전 이용건수 2시간 전 이용건수 3시간 전 이용건수 측정 척도: Root Mean Squared Error(RMSE) ..