DS and stats

statistical design - Mean model vs. Treatment effects model 본문

Data science - sem 2/Statistical design of investigation

statistical design - Mean model vs. Treatment effects model

으르미 2022. 3. 12. 09:00

2022.03.11 - [Data science - sem 2/Statistical design of investigation] - 통계 실험 디자인하기 - CRD(Completely Randomised design)

 

지난 번에 이어서, (means model)

 

$$ Y_{ij} = \mu_i + \epsilon_{ij} $$

 

여기서 \( \epsilon_{ij} \) 의 평균이 0이기 때문에 \(E[X] = \mu_i \) 가 된다.

이제 \( \mu_i = \mu + \tau_i \)를 이용하여 선형모델을 만들어보자. (treatment model)

 

$$ Y_{ij} = \mu + \tau_i + \epsilon_{ij} $$

\( \mu_i \) 가 treatment의 영향을 안받는 모든 변수들의 평균이라 할 때, \( \tau_i \)는 treatment 효과라 한다.

 

구체적으로, \(Y_{ij} \)와  \( \epsilon_{ij} \)는 같은 확률분포를 가지게 된다. 

treatment levels에 대한 단위의 무작위화로 인해, 반응변수나 실험오류는 상호 독립이 된다.

 

가정

1. 유닛들이 서로 비슷한 성질을 가지고 있을 때, 같은 treatment level에 있는 반응변수나 실험오류의 확률분포는 같다.

2. 반응변수나 실험오류의 확률분포는 Gaussian을 따른다.

 

ML(maximum likelihood)를 이용하여, ssE(error sum of square)을 이용하여 평균의 추정치를 찾는다.

 

\( ssE := \sum_{i=1}^t \sum_{j=1}^{r_i} (y_{ij} - \mu_i)^2 \)

 

편미분해서 0이 나오는 \(\hat {\mu_i} \)을 찾는다. 

★ Hessian 즉, 2차 편미분값 >0 이어야 최솟값임을 확인할 수 있다.

 

행렬대수 잠시 복습을 해보자면,

rank: the number of rows or columns which are independent 

  -> full rank: determinant를 계산했을 때, 0이 아니면 full rank라고 한다(역행렬 존재)

trace: the sum of the diagonal element in a matrix

idempotent: \( A*A = A \)

non-singular matrix: It means that one has a matrix inverse. Invertible(역행렬 존재)

singular matrix: a matrix whose determinant is 0 and hence it has no inverse. @ from google.

 

  Mean model Treatment Model
Rank Full rank - invertible! Not full rank - cannot be inverted!
The number of columns t t+1(cuz the first col should be intercepted)
X^TX invertible cannot be inverted. but X^T : invertible
Estimable \( \hat {\mu} = Z^T Z)^{-1}Z^Ty \) \( \sigma^hat = \frac 1 {n-t} (Y-Z\alpha)^{T}(Y-Z\alpha) \) ~ it followed chi-square distribution under reparametrization

Treatment effects 모델에서

E(Y) = X\( \beta \) and \( X^T X \beta \)는 추정가능하다(estimable)

그래서, Y = \( Z\alpha +\epsilon \)으로 매개변수를 다시 조정하면 full rank 모델이 된다. 즉, \( Z^T Z) \)는 정대각행렬임.

 

다 추정가능한데, treatment effects model에서 \(\tau\), treatment factor는 추정가능하다고 말할 수 없음

 

 

 

 

Comments