일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 영국석사
- Machine Learning
- 관찰연구
- 케글타이타닉
- 타이타닉데이터
- gam모델
- 통계디자인
- literature review
- statistical experiment
- 통계학석사
- cohort study
- 통계예상문제
- Data Science
- factorial design
- RCB
- 영국통계대학원
- 논문제안서
- 영국대학원
- 머신러닝
- Spatial Data
- Titanic - Machine Learning from Disaster
- 코호트연구
- 통계대학원
- Smoothing
- 데이터사이언스
- soap film smoothing
- mean model
- 통계실험
- blocking
- 통계석사
- Today
- Total
목록분류 전체보기 (17)
DS and stats

선형회귀: 내가 만든 모델과 실제 데이터 사이의 오차가 정규분포가 되도록 가정하고 모델을 만드는 데이터 분석 기법 분산분석: 표본집단의 차이가 우연한 오차인지 아니면 어떤 요인에 의한 차이인지를 검정하는 분석 기법 p-value: 가정하게 만든 모델과 실제 관측된 데이터 사이의 차이와 관련된 확률 p-value의 예시: 유의수준은 임의로 정해지는 데, 95%수준의 0.05로 정했다고 하자. 이 때, p-value가 0.75라면 p-value의 값이 크기 때문에 귀무가설을 참이라고 채택할 수 있다. 반대로, p-value < 유의수준인 경우에는, 귀무가설을 기각하여 대립가설(우리가 증명하고자하는 가설)을 채택할 수 있다. 중심극한정리: 통계학의 근간, 모집단과 표본집단 평균사이의 오차에 대한 원리. 표본 ..

회귀식이 데이터를 선형적으로 설명하는 모델이었다면, 비선형모델인 신경망 모델을 설명하는 수식에 대하여 알아볼 것이다. 신경망 모델: 선형모델+ 비선형 모델의 함수 주로 데이터를 벡터나 매트릭스로 많이 나타내기 때문에 선형대수를 공부하는 것은 필수인 것 같다. 그래도 엄청 어려운 개념은 아니고 invertible이나 determinant 등의 기본적인 내용부터 학습하면 이해하는 데 도움이 많이 될 것 같음! 통계적으로 설명하자면, response variable이 행렬 O가 되고, XW가 선형모델이 되고 b는 noise라고 이해하면 될 것 같다. softmax: 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산 분류 문제를 풀 때, 선형모델과 소프트맥스 함수를 결합하여 예측한다. 보통 선형결합같은 경우..

생각보다 개발을 하거나 파일을 불러올 때, 여러 상황에서 예기치 못한 경고나 오류가 뜨는 경우가 많다. 1, 2학기 수업을 들으면서 applied ds수업에서도 예외처리가 항상 평가 기준에 들어가 있을 정도로 오류나 예외를 처리하는데 중점을 두고 있는데 처음에는 우선 나는 알아볼 수 있고, 내 컴퓨터에서는 괜찮으니까~ 하고 넘어갈 수 있었지만 친구들 노트북으로 각자 사양에 맞게 테스트를 해봤을 때 깨지는 경우가 있어서 점점 관심이 생겼다. 그러던 중에 네이버 부트코스를 보게 되서 따로 내용을 정리해서 기억하고 두고 두고 써먹을까 한다. * Exception Handling 기본적인 try ~ except 문법 (예상가능한 범위의 예외일때) try: 예외 발생 가능 코드 except: 예외 발생시 대응하는..

여름 논문시즌이 시작되면서 시간이 좀 남게 되었다. 수업이 모두 다 끝나면서 미팅때문에 학교 가는 것 아니면 (이것도 나만 감 ,,, 주로 온라인이 대세) 주중에는 개인적으로 작업하는 시간이 되어버려서 집중이 잘 안되고 취업도 아직 입사하려면 최소 3개월은 더 있어야해서 graduate scheme이 아닌 나는 잠시 붕 뜬 상태가 되버렸음 ㅜㅜ 그래서 그 동안 kaggle을 이용해서 포트폴리오를 쌓을 계획이다 ㅋㅋㅋ toward datascience를 구독하던 중에 https://towardsdatascience.com/10-datasets-from-kaggle-you-should-practice-on-to-improve-your-data-science-skills-6d671996177 10 Datase..

전통적인 smoothing 방법은 복잡한 도메인, 즉 반도 같은 경우에 결과가 생각보다 좋지 않은 경우가 있다. 그래서 soap film smoothing은 주로 2차원의 도메인, 즉 도메인의 경계에 문제가 있을 때 사용하게 된다. 우리는 두 가지의 이슈에 관심이 있는데 - 흩어진 노이즈 데이터와 알려진 경계 값으로부터 어떻게 smooth function을 추론해낼 것인지, - 경계값을 모를 때를 포함한 복잡한 경계로 부터 어떻게 스무딩을 할 것인지이다. 먼저, smooth model이 적합한지 고려하려면, 우리는 네 가지 상황을 고려해야한다. 이러한 종류의 smooth 문제의 공간적 특성을 고려할 때, smooth를 적용해도 회전했을 때 변하지 않을 것 -> 내 경우, 시편의 모양이 대칭적이기 때문에 ..

안녕하세요, 오늘은 논문 주제가 정해졌으면 제안서와 literature review에 대해서 말하려고 합니다! 저는 학사 때 논문을 쓴 적이 없어서 ㅋㅋㅋㅋ (시험과 논문 사이에서 끼인 세대라 둘다 없었음 ㄷ ㄷ) 처음 쓰는거 + 심지어 영어로 써야함 그래서 두근 두근 걱정도 많았는데요! 다행히 섬세한 지도교수님을 만나서 어떻게 써야하는지 비슷한 주제로 쓴 학생들의 제안서를 먼저 보여주셨어여 ㅋㅋㅋ 물론 그 비슷한 주제는 결국 다른 주제로 바꼈지만 읽어보면서 어떻게 써야하는지 감을 잡을 수 있었습니다! 한 오천단어 정도 쓰는 것을 추천하는데 제안서가 2천 단어 + literature review가 3천 단어 정도면 될 것 같습니다. 그러면 보통 16~20장 정도 나오는 것 같더라구요! 목차를 보면 우선 ..

안녕하세요, 오늘은 논문 주제 정하기에 대하여 얘기를 해보려고 합니당 2학기부터는 논문 주제를 정하고 제안서와 literature review를 써야했는데 논문 주제와 해당 지도 교수가 우선 크게 15개 정도 정해지고 그 중에서 순위를 매기면 학과에서 조정 후에 할당해주는 시스템입니당 다행히 저는 1순위였던 교수님의 주제인 time-to-event가 할당이 되었습니당 첫 미팅에서는 Applied survival analysis using R이라는 책을 추천해주시면서 한 챕터씩 리뷰하는 식으로 2주에 한번 미팅을 하기로 했고, time-to-event 데이터에 대한 설명을 해주셨다지요 time-to-event는 일반적으로 사건이 발생한 시간부터 분석을 시작하는데, 크게 engineering과 healthc..

우리가 코호트 연구를 진행할 때 할 수 있는 여러가지 방법이 있다. 그 중 예시를 들어보자면, 가정: A(새로운 치료제)와 B(기존 치료제) 중 어떤 것이 더 효과적인가 방법1: 동시에 한 클리닉은 새로운 치료제를 주입한 환자, 다른 클리닉에서는 기존의 치료제를 주입한 환자의 결과를 비교한다. 방법2: 과거의 기존 치료제를 주입한 환자들에게 새로운 치료제를 주입하여 결과를 비교해본다.(같은 환자에게 기존(과거) 치료제, 새로운 치료제(현재) 2번 주입하는 것) 방법3: 기존의 치료제를 이용한 과거의 결과를 바탕으로 다른 환자에게 새로운 치료제를 주입하여 결과를 비교한다. 방법1에서 confounder: 서로 다른 클리닉에서 주입하기 때문에 의사의 스킬이나 병원의 환경이 요소가 될 수 있고, 다른 환자들에..