본문 바로가기
  • 노션에서 삽질한 내용을 정리하는 블로그
자기발전소/# Machine Learning

Azure ML Studio 실습: Linear Regression

by iamlucia 2020. 12. 23.

 

수동으로 입력한 데이터를

선형 회귀 알고리즘을 통해 학습시켜 연봉 예측 모델 구현


 

 

1. 먼저, 가공한 데이터를 학습용 데이터(Train Set)와 테스트용 데이터(Test Set)로 분리

 

👉 Split Data 모듈 추가 

 

 

 

👉 Split Data 모듈의 각 점의 의미 이해하기! 

상단의 점 : Input

하단의 두 개의 점: 1 & 2 

1: Train Set

2: Test Set

 

 

👉 Split Data 설정값 지정

"Fraction of rows in first~ " 값을 0.8 (Train 80 Test 20 퍼센트로 Split) 로 변경 및

Random Seed 값을 99로 변경

 

 

 

👉 Run & Split Data - Visualize 확인  

Test set이 설정값대로 퍼센트가 잘 나뉘어졌는지 확인 

 

 

👉 Linear Regression 모듈 추가

데이터 세트가 각각 준비되었다면, 알고리즘을 선택해야 한다. 

 

 


알고리즘이 복잡할수록 처리 시간이 오래 소요

* 성능은 어떻게 결정되나?
무료 스튜디오를 실행할 때마다 사용자별로 10기가 용량이 할당된다(한 번에 사용할 수 있는 모델 100) 


 

👉 Train Model 모듈 추가

학습용 데이터와 알고리즘을 활용하여 학습시킬 수 있는 모듈을 추가

 

 

 

 

👉Train Model - Label 컬럼 설정 

어떤 결과값을 예측하고자 하는 모델인지, Label Column을 설정한다.

 

 

Launch Column Selector를 클릭한 다음,

현재 실습에서 예측하고자 하는 '연봉' 컬럼을 오른쪽으로 옮겨 선택 

 

 

현재 실습에서 예측하고자 하는 '연봉' 컬럼을 오른쪽으로 옮겨 선택 

 

 

 

Label Column이 '연봉'으로 설정됨을 확인

 

 

 

👉 각 모듈 연결 &  Run & Train Model - Visualize 

Train Model에서 오른쪽 Input Point에는 알고리즘 연결

Train Model에서 왼쪽 Input Point에는 학습용 데이터 Train Set 연결

 

그리고 Run을 하여 학습 후 확인,

근속연수 외에 다른 변수가 없기 때문에

'근속연수'가 가장 많은 요인을 끼치는 것으로 나타남. 

 

 

👉 Score Model 모듈 추가 

모델의 정확도를 테스트하기 위해서 Score Model 연결 필요 

 

 

 

👉 Run & Split Data - Visualize 확인 

 

 

연봉: 실제 연봉 (실제값)

Scored Labels: 학습을 통해 예측한 연봉(예측값) 

 


 

데이터 간의 관계를 일직선의 관계로 분석하는

선형 회귀의 한계점을 확인할 수 있는 실습이었다. 

'자기발전소 > # Machine Learning' 카테고리의 다른 글

Face Recognition 실습  (0) 2020.12.24
Computer Vision API 실습: Object Detection  (0) 2020.12.24
Cognitive Services  (0) 2020.12.24
Machine Learning 입문 2  (0) 2020.12.23
Machine Learning 입문  (0) 2020.12.23