일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 통계예상문제
- 통계대학원
- 영국석사
- 통계석사
- RCB
- Spatial Data
- Machine Learning
- 통계디자인
- Titanic - Machine Learning from Disaster
- 영국통계대학원
- gam모델
- blocking
- 논문제안서
- cohort study
- 통계학석사
- 통계실험
- 타이타닉데이터
- 코호트연구
- Smoothing
- 케글타이타닉
- literature review
- Data Science
- 머신러닝
- statistical experiment
- 데이터사이언스
- mean model
- 영국대학원
- 관찰연구
- factorial design
- soap film smoothing
- Today
- Total
DS and stats
Experimental designs with multiple factors 본문
Experimental designs with multiple factors
으르미 2022. 3. 13. 09:00자, 그동안은 하나의 factor에 대해서 CRD를 행하는 방법을 알아봤는데
현실은 그렇게 쉽지 않으니까
여러 factors로 실험 설계하는 방법을 알아봅시다.
두 가지 방법이 있는데
1. One-at-a-time design
2. Factorial design
예를 들어서 네 개의 레벨을 각각 가지고 있는 2 factors가 있다고 가정해봅시다
One-at-a-time design은 다른 상수를 모두 고정하고 각 factor를 계산하는데, 3*8+3*8+8 = 56번 실행해야한다.
즉, 각 조합에서 8개의 replicates가 발생한다
Factorial design에서는 각 셀에서 2개의 replicates가 발생하기 때문에,
예를 들어 1번 factor에서 2*2*2*2 = 16가지의 모든 경우의 수에,
factor가 두개니까 16*2 = 32번을 실행해야 함
사실 계산은 R이 해주니까 Factorial design이 항상 더 효율적인 것만 알면 된다고 함.
그래서 이걸로 뭘하려고 하냐?
응답변수를 최대화하는 factor 조합을 찾는 것임
Interaction
두 변수 사이의 joint effect라고도 하는데, 다른 factor의 레벨에 따라 반응변수가 달라지는 변수의 효과라고 한다
현실에서는 당연히 비일비재하게 일어나는데 앞에서 얘기한
one-at-a-time design에서는 interaction이 없다고 가정한다.
그러다보니 당연히 factorial experiment를 좀 더 적용할 가능성이 높아짐
이 실험도
1. Mean model
$$ y_{ijk} = μ_{ij} + ϵ_{ijk} $$
i = 첫번째 factor의 레벨 수
j = 두번째 factor의 레벨 수
k = replicates의 수
2. treatment effect model로 나누어지는데
\( y_{ijk} = μ + α_i + β_j + γ_{ij} + ϵ_{ijk} \)
\( \alpha_i + \beta_j \) : 주요 treatment effects
\( \gamma_{ij} \) : 상호작용 효과
두 개의 결과는 결국 값이 동일해지지만 treatment effect model이 좀 더 general 한 것!
treatment effects 모델을 계산하려면 full rank라서 역행렬이 존재해야하는데
앞서 treatment 모델은 full rank가 아니라고 배웠다.
그래서 full rank로 만들어주려고
첫번째 레벨을 다 없애줌.
=>
위와 아래의 행렬을 비교해보면 \( \alpha_1, \beta_1 \) 등이 사라진 것을 볼 수 있다.
이러면서 새로운 행렬 \( X^T X \) 행렬이 만들어지는데
이 행렬은 full rank가 되면서 invertible이 된다.
Generalised Inverse
A를 정방행렬이라고 하자. 그러면 A의 g-inv가 \( A^-\)이고, 따라서 \( A A^- A = A \) 인데
AGA = A가 되게 하는 G가 존재한다고 할 때, 이 G를 \( G = A^- = (X^T X)^-\)라고 하자
이 때, G는 정방행렬이고,
projection matrix 또는 hat matrix라는 \(H_x = XGX^T \)라 할 때
H_x X = X가 된다 (왜냐하면 \( G = (X^T X)^-\) 라서)
그리고 이 H는 G랑 상관없이 안변하고 대칭이다.
모든 행렬이 X와 관계있으므로, \( rank(H_x) = rank(XGX^T) = rank(X) \)가 된다.
이 projection matrix \(H_x\)에 대하여 조금 더 알아보도록 하자.
공식이 많은 관계로 동영상 첨부함.
'Data science - sem 2 > Statistical design of investigation' 카테고리의 다른 글
Observational studies and Causal inference (관찰 연구 및 인과추론) (0) | 2022.04.17 |
---|---|
[Statistical design] Factorial designs in blocks(RCB) & GCB (0) | 2022.03.15 |
Statistical design - Anova Table (0) | 2022.03.15 |
statistical design - Mean model vs. Treatment effects model (0) | 2022.03.12 |
통계 실험 디자인하기 - CRD(Completely Randomised design) (0) | 2022.03.11 |