일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 타이타닉데이터
- statistical experiment
- 케글타이타닉
- 영국대학원
- 데이터사이언스
- Smoothing
- 통계실험
- 코호트연구
- 통계예상문제
- 통계석사
- soap film smoothing
- 통계디자인
- Data Science
- Spatial Data
- factorial design
- RCB
- mean model
- 통계학석사
- 논문제안서
- 영국통계대학원
- Titanic - Machine Learning from Disaster
- cohort study
- 머신러닝
- literature review
- 통계대학원
- gam모델
- 관찰연구
- 영국석사
- blocking
- Machine Learning
- Today
- Total
목록Data science - sem 2 (7)
DS and stats

우리가 코호트 연구를 진행할 때 할 수 있는 여러가지 방법이 있다. 그 중 예시를 들어보자면, 가정: A(새로운 치료제)와 B(기존 치료제) 중 어떤 것이 더 효과적인가 방법1: 동시에 한 클리닉은 새로운 치료제를 주입한 환자, 다른 클리닉에서는 기존의 치료제를 주입한 환자의 결과를 비교한다. 방법2: 과거의 기존 치료제를 주입한 환자들에게 새로운 치료제를 주입하여 결과를 비교해본다.(같은 환자에게 기존(과거) 치료제, 새로운 치료제(현재) 2번 주입하는 것) 방법3: 기존의 치료제를 이용한 과거의 결과를 바탕으로 다른 환자에게 새로운 치료제를 주입하여 결과를 비교한다. 방법1에서 confounder: 서로 다른 클리닉에서 주입하기 때문에 의사의 스킬이나 병원의 환경이 요소가 될 수 있고, 다른 환자들에..

관찰 연구는 무작위실험(randomised experiment)가 비윤리적이거나 실행불가능한 경우일 때, 노출 및 결과..?(treatment와 effects)사이의 관계를 실증적으로 조사하는 것이다 잘 디자인된 관찰연구는 가능한 비슷하고 간단한 무작위 실험과 닮았다. 실험과 다르게, 결과는 연구 설계 이전에 관측값으로 존재할 수도 있다. 즉, 존재가 아닌, 어떻게 사용하고 검토할 것인지 따라 분석의 방향을 정해야한다. 인과추론은 데이터로부터 원인-효과 관계가 있는지, 있으면 얼마나 있는지를 추론하는 것이다. 예를 들어, 기술에 대한 정부의 지출과 교수형에 대한 연관성를 찾으려고 한다고 가정해보자. => 정부가 기술에 대한 예산을 삭감하면 교수형이 줄어야한다는 시점을 가지는 것이다. 말도 안됨. 왜 말도..

2022.03.15 - [Data science - sem 2/Statistical design of investigation] - Statistical design - Anova Table Statistical design - Anova Table 우선 ANOVA란? 구글에 따르면 Analysis of variance, 평균 간의 차이를 분석하는데 사용된 통계적 모델과 그것과 관련된 추정 과정(변동)의 집합 잔차나 오류의 변동, treatment의 변동을 표로 나타낸 것이 eat-drink-study.tistory.com 앞에서 하나의 treatment factor에 대한 RCB에 대해서 정리했었다. 이 blocking은 factorial design과 결합했을 때 더욱 더 효과적이고, 각 block에..

우선 ANOVA란? 구글에 따르면 Analysis of variance, 평균 간의 차이를 분석하는데 사용된 통계적 모델과 그것과 관련된 추정 과정(변동)의 집합 잔차나 오류의 변동, treatment의 변동을 표로 나타낸 것이 ANOVA table 어떤 모델이 더 나은지 성능을 측정하기 위해서 reduced model과 general model을 사용하는데 null hypothesis \( H_0 \) : reduced model, alternative model \( H_1 \): general model이라고 하자. null model(= reduced model)에서 \( X\beta = X_0 \hat \mu \) 라서 저번 포스팅에서 구했던 SSE랑은 조금 다르게 나온다 \( SSE_0 = (..

자, 그동안은 하나의 factor에 대해서 CRD를 행하는 방법을 알아봤는데 현실은 그렇게 쉽지 않으니까 여러 factors로 실험 설계하는 방법을 알아봅시다. 두 가지 방법이 있는데 1. One-at-a-time design 2. Factorial design 예를 들어서 네 개의 레벨을 각각 가지고 있는 2 factors가 있다고 가정해봅시다 One-at-a-time design은 다른 상수를 모두 고정하고 각 factor를 계산하는데, 3*8+3*8+8 = 56번 실행해야한다. 즉, 각 조합에서 8개의 replicates가 발생한다 Factorial design에서는 각 셀에서 2개의 replicates가 발생하기 때문에, 예를 들어 1번 factor에서 2*2*2*2 = 16가지의 모든 경우의 수..

2022.03.11 - [Data science - sem 2/Statistical design of investigation] - 통계 실험 디자인하기 - CRD(Completely Randomised design) 지난 번에 이어서, (means model) $$ Y_{ij} = \mu_i + \epsilon_{ij} $$ 여기서 \( \epsilon_{ij} \) 의 평균이 0이기 때문에 \(E[X] = \mu_i \) 가 된다. 이제 \( \mu_i = \mu + \tau_i \)를 이용하여 선형모델을 만들어보자. (treatment model) $$ Y_{ij} = \mu + \tau_i + \epsilon_{ij} $$ \( \mu_i \) 가 treatment의 영향을 안받는 모든 변수들의 ..

Statistics: the science of collecting, analysing, and drawing conclusions from data. 데이터 수집하는 방법: 1. Sampling surveys: 공적 조사 없이 유한한 모집단의 특징을 추정하는것이 목적 2. Observation studies and Experiments: 모집단에서 두 개 이상의 측정된 변수간의 관계를 결정 eg. 흡연과 폐암발생 간의 관계(흡연, 폐암 발생횟수는 이미 측정된 변수이고 우리가 할 일은 관계를 결정하는 것 우리는 2에 초점을 맞춰서 Observation studies 와 Experiments의 차이를 알아보자. Observation studies: 자연적인 환경에서 관찰된 데이터이고, 그래서 원인과 효과를..