일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- gam모델
- 케글타이타닉
- blocking
- 영국석사
- mean model
- 통계대학원
- Data Science
- Machine Learning
- RCB
- 영국통계대학원
- Spatial Data
- statistical experiment
- 통계실험
- Smoothing
- literature review
- 통계석사
- 머신러닝
- 관찰연구
- 데이터사이언스
- 논문제안서
- cohort study
- 코호트연구
- 통계예상문제
- soap film smoothing
- factorial design
- 통계학석사
- 영국대학원
- 타이타닉데이터
- Titanic - Machine Learning from Disaster
- 통계디자인
- Today
- Total
DS and stats
statistical design - Mean model vs. Treatment effects model 본문
statistical design - Mean model vs. Treatment effects model
으르미 2022. 3. 12. 09:00
지난 번에 이어서, (means model)
$$ Y_{ij} = \mu_i + \epsilon_{ij} $$
여기서 \( \epsilon_{ij} \) 의 평균이 0이기 때문에 \(E[X] = \mu_i \) 가 된다.
이제 \( \mu_i = \mu + \tau_i \)를 이용하여 선형모델을 만들어보자. (treatment model)
$$ Y_{ij} = \mu + \tau_i + \epsilon_{ij} $$
\( \mu_i \) 가 treatment의 영향을 안받는 모든 변수들의 평균이라 할 때, \( \tau_i \)는 treatment 효과라 한다.
구체적으로, \(Y_{ij} \)와 \( \epsilon_{ij} \)는 같은 확률분포를 가지게 된다.
treatment levels에 대한 단위의 무작위화로 인해, 반응변수나 실험오류는 상호 독립이 된다.
가정
1. 유닛들이 서로 비슷한 성질을 가지고 있을 때, 같은 treatment level에 있는 반응변수나 실험오류의 확률분포는 같다.
2. 반응변수나 실험오류의 확률분포는 Gaussian을 따른다.
ML(maximum likelihood)를 이용하여, ssE(error sum of square)을 이용하여 평균의 추정치를 찾는다.
\( ssE := \sum_{i=1}^t \sum_{j=1}^{r_i} (y_{ij} - \mu_i)^2 \)
편미분해서 0이 나오는 \(\hat {\mu_i} \)을 찾는다.
★ Hessian 즉, 2차 편미분값 >0 이어야 최솟값임을 확인할 수 있다.
행렬대수 잠시 복습을 해보자면,
rank: the number of rows or columns which are independent
-> full rank: determinant를 계산했을 때, 0이 아니면 full rank라고 한다(역행렬 존재)
trace: the sum of the diagonal element in a matrix
idempotent: \( A*A = A \)
non-singular matrix: It means that one has a matrix inverse. Invertible(역행렬 존재)
singular matrix: a matrix whose determinant is 0 and hence it has no inverse. @ from google.
Mean model | Treatment Model | |
Rank | Full rank - invertible! | Not full rank - cannot be inverted! |
The number of columns | t | t+1(cuz the first col should be intercepted) |
X^TX | invertible | cannot be inverted. but X^T : invertible |
Estimable | \( \hat {\mu} = Z^T Z)^{-1}Z^Ty \) | \( \sigma^hat = \frac 1 {n-t} (Y-Z\alpha)^{T}(Y-Z\alpha) \) ~ it followed chi-square distribution under reparametrization |
Treatment effects 모델에서
E(Y) = X\( \beta \) and \( X^T X \beta \)는 추정가능하다(estimable)
그래서, Y = \( Z\alpha +\epsilon \)으로 매개변수를 다시 조정하면 full rank 모델이 된다. 즉, \( Z^T Z) \)는 정대각행렬임.
다 추정가능한데, treatment effects model에서 \(\tau\), treatment factor는 추정가능하다고 말할 수 없음
'Data science - sem 2 > Statistical design of investigation' 카테고리의 다른 글
Observational studies and Causal inference (관찰 연구 및 인과추론) (0) | 2022.04.17 |
---|---|
[Statistical design] Factorial designs in blocks(RCB) & GCB (0) | 2022.03.15 |
Statistical design - Anova Table (0) | 2022.03.15 |
Experimental designs with multiple factors (0) | 2022.03.13 |
통계 실험 디자인하기 - CRD(Completely Randomised design) (0) | 2022.03.11 |