Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 통계예상문제
- Spatial Data
- 통계디자인
- 통계학석사
- 영국석사
- soap film smoothing
- statistical experiment
- blocking
- 통계실험
- 영국대학원
- literature review
- 논문제안서
- 타이타닉데이터
- factorial design
- 영국통계대학원
- 통계대학원
- gam모델
- 데이터사이언스
- 케글타이타닉
- mean model
- Data Science
- RCB
- Titanic - Machine Learning from Disaster
- 통계석사
- 코호트연구
- Smoothing
- cohort study
- 관찰연구
- Machine Learning
- 머신러닝
Archives
- Today
- Total
DS and stats
[DS/DA] 면접 준비하기 본문
- 선형회귀: 내가 만든 모델과 실제 데이터 사이의 오차가 정규분포가 되도록 가정하고 모델을 만드는 데이터 분석 기법
- 분산분석: 표본집단의 차이가 우연한 오차인지 아니면 어떤 요인에 의한 차이인지를 검정하는 분석 기법
- p-value: 가정하게 만든 모델과 실제 관측된 데이터 사이의 차이와 관련된 확률
- p-value의 예시: 유의수준은 임의로 정해지는 데, 95%수준의 0.05로 정했다고 하자. 이 때, p-value가 0.75라면 p-value의 값이 크기 때문에 귀무가설을 참이라고 채택할 수 있다. 반대로, p-value < 유의수준인 경우에는, 귀무가설을 기각하여 대립가설(우리가 증명하고자하는 가설)을 채택할 수 있다.
- 중심극한정리: 통계학의 근간, 모집단과 표본집단 평균사이의 오차에 대한 원리. 표본 집단 평균과 모집단 평균 사이의 오차는 0을 평균으로 하는 정규분포에 근접한다.
- 기술통계학: 자료들을 수치값으로 요약한 대표값(평균, 중앙값, 최빈값 등)이나 산포도(분산, 표준편차, 사분편차 등)와 변동의 크기 등을 구하여 나타내는 것
- 추측통계학: 통계적 모형과 구간을 설정하고 추측하며 가설을 세우고 여러 가설 중 어떤 가설에 가까운지 합리적이고 과학적으로 추정하고 검정하여, 변수간의 관계를 결정하고 예측함으로써 표본으로부터 모집단을 일반화하는 것을 의미한다.
- 변수(Variable) : 변하는 값을 가질 수 있는 특성이나 속성(eg. 이름, 키, 몸무게, IQ 등...)
- 자료(Data) : 변수들이 (측정 또는 관측을 통해) 취할 수 있는 특정 값(eg. ITISIK, 174.21, 64.3, 120 등...)
- 확률변수(Random variable) : 취하는 값(자료)이 우연에 의하여 결정되는 변수를 의미
- 모집단(Population) : 관심이 있는 대상(개체) 전체
- 모수(Parameter) : 모집단의 특성(대푯값/산포도)을 수치로 나타낸 것
- 표본(Sample) : 모집단에서 추출된 개체들의 그룹
- 통계량(Statistics) : 표본의 특성(대푯값/산포도)을 수치로 나타낸 것
- 가설검정(Hypothesis testing) : 표본으로부터 얻은 정보를 이용하여, 모집단에 관한 주장의 타당성을 평가하는 것
- 귀무가설: 일반적으로 기각될 것이 예상되어 세워진 가설, 즉 해당 가설을 부인함으로써 대립가설을 채택하게 된다.
- 대립가설: 진짜로 증명하고 싶은 가설.
- 표준편차: 자료가 평균을 중심으로 얼마나 퍼져있는지를 나타내는 대표적인 수치
- 분산: 변량이 평균으로부터 떨어져 있는 정도를 나타내는 값
- 중앙값을 써야하는 경우: 데이터의 분산이 커서 동떨어져있는 경우, 이 경우 bias가 된다
- 최빈값을 써야하는 경우, 한 곳에 분포가 집중되어있을 때
- 과제 때, 랜덤 포레스트를 쓴 이유
- Classification 및 Regression 문제에 모두 사용 가능
- 대용량 데이터 처리에 효과적
- 과대적합 문제 최소화하여 모델의 정확도 향상
- 간편하고 빠른 학습 및 알고리즘에도 불구하고 높은 정확성을 가지고 있음.
- 정규분포: 정규분포는 수집된 데이터들의 평균 근처에 값이 모여 있는 연속 확률분포. bell shape을 가지고 있으며, 표준편차가 클수록 꼬리부분이 두껍고, 낮을수록 꼬리부분이 얇은 성질을 가지고 있다.
- 신뢰구간의 의미: 표본에서 계산된 평균의 95% 신뢰구간은 모집단으로부터 동일한 방법으로 반복 추출된 표본들의 신뢰구간 중 95%가 그 구간에 모평균을 포함한다. 즉, 따라서 신뢰구간 에 모평균이 포함될 확률이 95%라는 표현은 틀리며, ‘모평균은 같은 방법으로 추출된 표본들의 신뢰구간 중 95%에 포함되어 있다’ 라고 해석함.
- 신뢰구간을 구하는 방법: 정규분포를 하는 표본의 평균에 대한 95% 신뢰 구간 범위는 정규분포에서 양쪽 끝 2.5%에 해당하는 확률값과 점 추정이 된 평균과 표준오차를 이용하여 계산. 신뢰구간의 계 산에 사용되는 분포는 표본으로부터 얻어낸 표집분포(sampling distribution)이며, 모집단의 분포와 다름.
- 독립표본 T 검정에서 두 군의 차이를 아래 그림으로 표현해 보자. 1번과 2번은 95% 신뢰구간이 0을 포함하고 있지 않으므로, 두 군의 모평균 차이가 실제로 0일 가능성이 5% 미만으로 p value < 0.05이다. 즉, 통계적으로 유의하게 실험군이 대조군보다 크기가 크거나(1번), 낮다(2번). 4~6번은 모두 95% 신뢰구간이 0을 포함하므로, 두 군이 통계적으로 유의한 차이가 없다. (p > 0.05)
- Bayesian Theorem: 종속적(의존적) 관계에 놓인 사건들을 기반으로 확률을 구함. 즉, 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리.
- Law of Large Numbers(큰 수의 법칙): 큰 수의 법칙 또는 대수의 법칙, 라플라스의 정리는 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계와 확률 분야의 기본 개념. 즉,
29. 왜도(skewness): 분포가 얼마나 비대칭인지 나타내는 척도, 양의 값을 가지면 데이터의 중심이 정규분포를 기준으로 왼쪽으로 치우쳐져 있고, 음의 값을 가지면 오른쪽으로 치우쳐져 있다.
30. 첨도(Kurtosis): 분포의 뾰족한 형태, 정규분포를 기준으로 첨도는 0이며, 0보다 크면 정규분포보다 뾰족한 모양, 작으면 낮은 것으로 볼 수 있으며, 첨도의 값이 크면 이상치가 많다.
출처: https://brunch.co.kr/@gimmesilver/20
통계학이란 무엇인가
0. 통계학을 한마디로 정의하면 무엇인가 제가 면접에서 종종 물어보는 질문이 하나 있습니다. 바로 '통계학을 한마디로 말하면 무엇이라고 생각하느냐?' 입니다. 그러면 다양한 대답이 돌아옵
brunch.co.kr
https://itisik.tistory.com/137
[기초통계학] 1. 확률과 통계학의 이해
다음 내용 공부하기 >> 통계학을 전공으로 하지 않은 사람이라고 할지라도 통계를 외면하고 살아갈 수는 없다. 가장 좋은 예로 우리가 매일같이 확인하는 일기예보에서도 "내일 오전에 비가 올
itisik.tistory.com
[DS/DA] 통계학 면접 질문 모음
통계학 면접 질문 모음
velog.io
https://ekja.org/upload/pdf/kjae-69-555_ko.pdf
'개인공부' 카테고리의 다른 글
딥러닝 학습방법 이해하기 (0) | 2022.08.10 |
---|---|
[Python] File / Exception / Log Handling (0) | 2022.08.08 |
Comments