본문 바로가기
  • 노션에서 삽질한 내용을 정리하는 블로그
자기발전소/# Machine Learning

Machine Learning 입문 2

by iamlucia 2020. 12. 23.

 

 

 

Steps of Machine Learning 

1. Understand the Business Domain

2. Understand the Business Problem 

3. What is the Right Data, Right Column and Algorithm

4. Combine Knowledge With Machine Learning

 

관련 썰😊 : 세계2차대전
전쟁에 격추되지 않고 살아돌아온 비행기를 보고 비행기 보강할 계획을 세던 중

엔지니어: "살아돌아온 비행기에서 총알을 맞은 부분만 강화하자"
비행기 조종사: "아니다, 격추당하지 않은 곳을 강화해야 한다. 격추당한 비행기는 그 부분을 맞았기 때문에 격추당해 돌아오지 못한 것이다."

 

머신러닝 모델 구축의 단계 

문제 정의

데이터 셋 준비

모델 설정

모델 훈련/평가

모델 활용

 

알고리즘 치트 시트

활용 방법: START 시작점에서 시작한다.

내가 알고자 하는 것에 따라 화살표를 따라간다 

- 연봉과 같은 값을 예측인 경우, Predicting Values

- 성별이나 동물군 등의 범주별 분류를 하고자 할 때, Predicting Categories (범주 개수에 따라 세분화)

- 이상값 발견하고 싶다면, Finding Unusual data points  

- 구조를 알아내고 싶다면, Discovering Structure 

 

데이터 Split

Data set을 Train set과  Test set으로 Split

DATA Split

 

모델의 전체적인 흐름 Overview 

Train data set 과 ML Algorithm을 Train Model 에 넣고

Score Model 에  Test set을 넣어 테스트 한다.

https://docs.microsoft.com/en-us/azure/machine-learning/classic/studio-classic-overview 에서 다운로드 가능 

 

Data Set은 어디에서 구하지? 

데이터셋 자료가 풍부한 사이트  www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

데이터 전처리 과정에 포함되는 과정들: 

데이터 지원 형식 확인 및 변환

데이터 업로드

데이터 Merge

데이터 전처리 

 

Azure ML Studio 데이터 지원 형식

.csv / .nh.csv

.tsv / .nh.tsv

.txt

Excel file, Azure Table, Hive Table

SQL Server

.svmlight

.Arff

.zip

.RData

 

.nh : no header

csv: comma seperated values

tsv: tab seperated values

 

Azure ML Studio 데이터 지원 유형

문자열

정수

Double(실수형)

Boolean(참/거짓)

Datetime

timespan

 

 

'자기발전소 > # Machine Learning' 카테고리의 다른 글

Face Recognition 실습  (0) 2020.12.24
Computer Vision API 실습: Object Detection  (0) 2020.12.24
Cognitive Services  (0) 2020.12.24
Azure ML Studio 실습: Linear Regression  (0) 2020.12.23
Machine Learning 입문  (0) 2020.12.23