일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 코호트연구
- Spatial Data
- 통계석사
- 통계대학원
- Machine Learning
- gam모델
- blocking
- statistical experiment
- soap film smoothing
- 통계학석사
- 논문제안서
- 영국석사
- 영국통계대학원
- cohort study
- 통계예상문제
- 데이터사이언스
- Titanic - Machine Learning from Disaster
- 케글타이타닉
- 관찰연구
- mean model
- 머신러닝
- 영국대학원
- Smoothing
- factorial design
- 통계디자인
- 타이타닉데이터
- RCB
- literature review
- Data Science
- 통계실험
- Today
- Total
DS and stats
[Machine Learning] 개요 본문
머신러닝이란?
컴퓨터가 예제(데이터)를 통해 학습하고 모든 인풋을 일반화시키는 것.
과정으로는
1. 문제를 설정하고
2. 데이터를 얻는다
3. 모델을 정하거나 디자인한다.
4. 최적화를 통해 데이터를 모델에 적용한다
5. 성능 측정으로 이루어진다.
머신러닝은 크게 지도학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나누어지는데, 그 나누는 기준은 y라는 결과가 있냐 없냐의 차이가 된다.
그래서 비지도학습에서는 패턴을 찾는 것이 주가 된다.
먼저 지도 학습에 대해 이야기하자면,
분류(classification), 회귀분석(regression) 두 종류가 일반적인데,
그중분류인 경우,
output이 이산형(discrete)이다.
회귀분석인 경우,
f를 구하기 위해 input과 output이 필요하다. (output: 연속형)
그 input과 output을 이용하여 입력 변수와 출력 변수의 관계를 나타내는 식이 f가 된다.
하지만 현실세계에서는 population(모집단)을 모르기 때문에
추정 값을 통해 예측할 수 있음.
그 외에도 각 instance에 대해 여러 라벨을 가져서 output이 set(벡터형)으로 나타나는
Multi-label classification,
y가 어느 형태든 가능한 Structured prediction이 있다.
eg. 자동화된 디자인에서 y는 CAD 모델이 된다.
비지도 학습에서는
데이터의 패턴을 찾는 것이 목적이다.
예를 들면, Clustering, Desitiy estimation, 그리고 Dimensionality reduction이 대표적이다.
그중Clustering은 데이터의 유사점을 통해 그룹화하는 것이고
Density estimation은 주로 주어진 데이터셋을 이용하여 확률론과 통계학을 이용하여 pmf(probability density function)을 추정하는 것이다.
마지막으로, Dimensionality reduction/manifold learning은
원본 데이터의 의미 있는 속성을 유지하기 위해 고차원의 공간을 적은 차원의 공간으로 변환하는 것을 말한다.
raw data는 종종 차원의 저주의 결과로써*밀도가 낮고, 계산하기 힘들어지는 단점이 있다.
또한, 차원을 낮추면서 데이터의 밀도가 높아지므로 시각화에도 주로 사용된다.
*밀도가 높다: 데이터가 서로 가까이 있다.
데이터를 수집하는 것은 비용이 적게 들지만,
라벨링 하는 것은 비싸므로
약간의 labelled data+ lots of unlabelled data의 결합인 Semi-supervised를 사용하기도 한다.
또한, 정확한 라벨은 비싸지만
정확하지 않은 라벨 된 데이터는 비용이 적게 들기 때문에,
"약한-weak/inaccurate" 라벨 데이터를 통해 학습하고 "strong/precise" 라벨 데이터로 결과를 내는
"Weakly-supervised" 종류가 있는 것도 참고하면 좋을 것 같다.
정말 정말 마지막으로,
알파고로 유명한 강화 학습(reinforcement learning)
특정 환경에서 수많은 시뮬레이션을 통해 현재의 선택이 먼 미래에 보상이 최대가 되도록 학습.
data set이 따로 없다는 특징을 가지고 있다.
출처: 학교 강의자료, 위키피디아 참고
'Data science - sem 1' 카테고리의 다른 글
[stfds] Noughts and crosses (Tic-tac-toe/빙고) (0) | 2021.12.22 |
---|---|
[Machine Learning] Brute force (0) | 2021.12.20 |