DS and stats

Observational studies and Causal inference (관찰 연구 및 인과추론) 본문

Data science - sem 2/Statistical design of investigation

Observational studies and Causal inference (관찰 연구 및 인과추론)

으르미 2022. 4. 17. 23:14

관찰 연구는 무작위실험(randomised experiment)가 비윤리적이거나 실행불가능한 경우일 때,

노출 및 결과..?(treatment와 effects)사이의 관계를 실증적으로 조사하는 것이다

 

잘 디자인된 관찰연구는 가능한 비슷하고 간단한 무작위 실험과 닮았다.

실험과 다르게, 결과는 연구 설계 이전에 관측값으로 존재할 수도 있다. 

즉, 존재가 아닌, 어떻게 사용하고 검토할 것인지 따라 분석의 방향을 정해야한다.

 

인과추론은 데이터로부터 원인-효과 관계가 있는지, 있으면 얼마나 있는지를 추론하는 것이다.

예를 들어, 기술에 대한 정부의 지출과 교수형에 대한 연관성를 찾으려고 한다고 가정해보자.

=> 정부가 기술에 대한 예산을 삭감하면 교수형이 줄어야한다는 시점을 가지는 것이다.

말도 안됨.

왜 말도 안되는 것을 아냐면

우리는 association(연관성)과 causation(인과관계)가 다른 것을 알기 때문이다

 

[실험 가정]

12명의 개인이 두통을 가지고 있고

몇명은 약을 먹고, 다른 사람들은 안먹는다.

그리고 한시간 후에 두통이 사라졌는지 확인해보자

 

반증과 잠재적 결과

treatment X: 약을 먹었는지 안먹었는지의 여부

outcome Y: 두통이 사라졌는지 안사라졌는지의 여부

potential outcomes

\(Y_0\): 약을 복용하지 않았을 때의 모든 결과 

\(Y_1\):  약을 복용하였을 때 모든 결과

=> 우리는 약을 안먹었을 때의 모든 결과(X=0, $Y_0$), 약을 복용하였을 때의 모든 결과(X=1, $Y_1$)를 알 수 있다.

그 외는 모든 반증이 됨.(반증: 잠재적인 결과를 기대했으나 관찰되지 않음)

 

이 표에 따르면,

Juan은 약을 복용함으로써 두통이 사라졌다

=> 인과관계가 있다고 생각할 수 있다. 

그렇다면 약을 복용하지 않았으면 두통은 사라지지 않았을까?(반증)

 

Rosa의 경우는? 인과관계가 있다고 볼 수 없음

Jorge는 약을 복용하지 않았는데도 두통이 사라졌다. (harmful)

 

\(Y_1- Y_0\)를 통해서 개인의 인과관계를 측정할 수 있다

 

실제로는 우리는 \(Y_1, Y_0\)를 한번에 관찰할 수 없기 때문에

이것을 인과관계의 근본문제라고도 한다.

 

 

 

 

 

 

모집단 수준이나 평균 인과관계를 측정하는 것은 그나마 나은 것을 볼 수 있다.

\(Y_1\) = 0 or 1 이므로

E[\(Y_1\)] = 0 * Pr(\(Y_1\) = 0) + 1* Pr(\(Y_1\) = 1) = Pr(\(Y_1\) = 1)

비슷하게 E[\(Y_0\)]도 구하면, 

E[\(Y_1\)] - E[\(Y_0\)] 하거나 Y가 Binary인 경우에는 Pr(\(Y_1\) = 1) - Pr(\(Y_0\) = 1)

 

그래서 위의 표를 통해서 평균을 구해보면, 

Pr(\(Y_0\)= 1) = 4/12

Pr(\(Y_1\) = 1) = 4/12

Pr(\(Y_1\)= 1) - Pr(\(Y_0\) = 1) = 0 => 즉, 모집단 수준의 인과관계는 존재하지 않는다.

 

사실 현실에서는 \(Y_1\) 이 다 존재하는 것도 아니라서 이런 식으로 간단하게 추정할 수가 없다.

인과추론은 관찰할 수 없는 반증을 포함한 Pr(\(Y_1\)= 1) - Pr(\(Y_0\) = 1) 같은 가설적 양?(quantities)에 대한 합리적인 대체제를 나타내는(포함하는) 관찰된 데이터로부터 quantities를 선택하는 것에 대한 것이다.

 

substitutes(대체제): 동시에 같은 유닛에 두 treatments를 적용할 수 없지만

- 다른 시간에 treatments를 적용할 수 있다

- 유닛을 다시 쪼갤 수 있다

- pre-treatment를 이용해서 통제할 수 있다.

=> 모든 것은 강한 가정을 필요로 함

 

언제 association과 causation이 같아지는가?

(\(Y_0\), \(Y_0\) ⏊ X(Ignorability) =>  ignorability 조건 하에서는  Pr(\(Y_1\)) ⋍ Pr(\(Y_1\) = 1|X=1) 가능

그리고 약을 복용하는 경우가 무작위로 성립되어야 하고, 인과효과를 추론하는 것에 있어서 무작위 실험은 필수적이다.

 

Randomisation

같은 유닛에 treatments를 적용하는 건 안되지만 비슷한 유닛에 적용은 가능

treatment의 무작위성은 exchangeabilty를 얻게 해줌.

 

 

 

 

P(Y=1|X=1) = 2/5

P(Y=1|X=0) = 3/7

P(Y=1|X=1) - P(Y=1|X=0) = -1/35

 

=> 우리는 약을 복용하는 것이 평균적으로 약간 효과가 없다고 결론낼 수 있다.

 

근데 실험 대상자가 심각한 두통을 가지고 있었고

약을 복용하기 더 좋은 환경이었다면?

당연히 연관성 ≠ 인과관계

 

 

 

 

관찰 연구에서 randomisation이란, treatment 그룹이 균일하다(balanced)는 의미이고

관찰연구는 treatments들이 할당되는 것이 아닌 관찰된다는 것이다.

 

구조적 차이는 treatment groups에 따라 존재할 수 있고, 

confounding variable(교란변수..?)는 응답변수(Y)와 treatment groups 내의 변수들과 연관되어 있을 수도 있다.

 

같은 예시에 심각도를 추가해서 설명해보자.

실험을 시작할 때 각각의 개인에게 두통이 심각한지를 물어본다고 가정하자.

그리고 심각도를 고려하여, 알약을 복용할 지 말지를 무작위성으로 실행되었다고 할 수 있다. 

Z라는 변수가 심각도를 나타내고, 이 가정하에서 Z를 계층화했을 때, 심각한 환자/안심각한 환자는 교환 가능(?)하다.

앞서 나타낸 조건부 교환가능성은 (/(Y_0, Y_1)/ ⏊ X|Z (Ignorability)되고,

이 경우에는 Z계층 내에서 연관성과 인과관계가 동일하게 된다.

 

 

Z라는 변수가 심각도를 나타내고,

Z=0이라고 할 때, 

P(Y=1|X=1) = 1/2

P(Y=1|X=0) = 2/4

 

Z=1이라고 하면,

P(Y=1|X=1) = 1/3

P(Y=1|X=0) = 1/3

 

여전히 Z 계층 내에서도 

P(Y=1|X=1) - P(Y=1|X=0)  = 0이므로

X와 Y가 연관이 없다는 것을 알 수 있다.

 

 

 

Confounder를 제어하기 위해서 충분한 변수들을 식별했다고 가정해보자.

confounder가 적고, 범주형이나 이진형인 경우에 우리는 그것들을 계층화할 수 있다. 그 후 odd ratio 등을 계산하고

MantelHaenszel같은 일반적인 방법으로 결합한 후에 관심이 있는 effect 관련 변수가 있는 경우에는 따로 집계를 한다.

 

아니면, confounder가 너무 많거나 일부가 연속형인 경우, 우리는 linear, logistic 아니면 포아송 등의 회귀모델을 통해서 구체화할 수 있다.

 

 

 

Comments