동기
지금 Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow로 공부하고 있는데,
chapter 2에서 간단한 머신 러닝 프로젝트를 해볼 수 있는 내용이 있어서 따라해보려고 합니다.
데이터 설명
이 프로젝트는 StatLib 저장소에 있는 캘리포니아 주택 가격 데이터셋을 사용합니다.
이 데이터는 캘리포니아의 블록 그룹마다 인구, 중간 소득, 중간 주택 가격 등을 담고 있습니다.
목표
이 데이터로 모델을 학습시켜서 다른 측정 데이터가 주어졌을 때 구역의 중간 주택 가격을 예측해야 합니다.
문제 정의
먼저 문제를 정의해야 합니다.
우리에게는 레이블된 훈련 샘플이 있으니 지도 학습이고,
값을 예측해야 하고 예측에 사용할 특성이 여러개이므로 다중 회귀 문제입니다.
또한 각 구역마다 하나의 값을 예측하므로 단변량 회귀 문제입니다.
성능 측정 지표 선택
회귀 문제의 전형적인 성능 지표는 평균 제곱근 오차(RMSE)이므로 이를 사용하겠습니다.
프로젝트 코드
'DATA > 머신 러닝' 카테고리의 다른 글
[머신 러닝] 경사 하강법 (Gradient descent) (0) | 2022.01.16 |
---|---|
[머신 러닝] 분류 (Classification) (0) | 2022.01.15 |
[머신 러닝] 행렬 인수분해 (Matrix Factorization) (0) | 2022.01.10 |
[머신 러닝] 협업 필터링 (collaborative filtering) (0) | 2022.01.10 |
[머신 러닝] 에이다 부스트 (AdaBoost) (0) | 2022.01.10 |