추측 통계학은 관측 데이터(표본)로부터, 그 배경에 있는 모집단의 특성을 추측하는 학문입니다(기술통계학은 추출된 관측데이터의 특징만을 파악하기 때문에 모수 추측은 하지 않습니다). 데이터가 적을 경우에도 분석 결과가 잘못되지 않도록 '오차'라는 개념을 도입하는 것이 기술통계학과 다른점입니다.
추측통계학은 표본을 사용해 그 추출원인 모집단의 특징(모수)를 추측합니다.
모수
모수란 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값으로, 파라미터라고도 합니다.
대표본과 소표본
대표본일수록 정밀도가 높은 추측이 가능합니다.
소표본에 기술통계학적 방식을 그대로 이용하면 추측의 정도가 낮아지며, 검정 등이 잘못될 가능성이 있습니다.(소표본의 문제)
*명확하게 정해진 것은 없지만 n<30 정도가 소표본이라고 합니다.
오차
모수와 통계량의 차이를 오차라고 합니다. 오차에는 차이의 방향(크다, 작다)이 정해져 있는 계통오차와 정해져 있지 않은 우연오차가 있습니다.
계통 오차
예를 들어 여름에 밖에서 금속 자를 이용해 길이를 관측하면 열로 인해 자가 늘어나 몇 번을 측정하더라도 참값보다 작게 치우쳐서 측정됩니다.
계통오차는 원인이나 오차의 크기가 판명되면 제거하거나 수정할 수 있습니다.
우연오차
계통오차가 없어도 기타 여러 원인으로 참값과 차이가 나게 측정됩니다.
우연오차는 제거나 수정을 할 수 없지만, 표본평균의 우연 오차는 표본 크기와 밀접한 관계가 있기 때문에 표준편차로 크기를 평가하거나 반복하여 작게 할 수 있습니다.
표준오차
표준오차는 표본분포가 고르지 않은 것으로 표본평균의 우연 오차 지표입니다.
표준편차를 자유도의 제곱근으로 나눈 수치이므로 표본 크기가 커지면 표준오차는 작아집니다(정밀도 상승).
불편추정
불편추정이란 참값인 모수와 비교해 큰 쪽에도 작은 쪽에도 치우치지 않는 통계량을 표본에서 추정하는 것을 말합니다.
기술통계학의 방법으로 통계량을 계산했을 때 참값인 모수보다 커지거나 작아지는 치우침을 수정한 통계량(불편추정량)을 얻는 것이 불편추정입니다.
불편추정(수정) 방법
표본분산은 모분산(참값)보다 조금 작아집니다(표본표준편차도 마찬가지).
그래서 표본분산 $s^{2}$식의 분모인 $n$을 $n-1$로 바꾸어 모분산에 더 가까이하게 합니다.
(이때, n-1은 자유도)
불편추정량(정리)
표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량입니다.
기호는 표준통계량에는 알파벳, 모수에는 그리스 문자, 불편추정량에는 그리스 문자에 헤트($\hat{\alpha }$)를 써서 구분합니다.
평균에 대해서는 모평균보다 커질지 작아질지 모르기 때문데 수정할 수 없어 표본평균을 그대로 불편평균이라고 생각합니다.
불편표준편차($\hat{\sigma }$)는 모표준편차($\sigma $)에 대해 다음과 같습니다.
$\hat{\sigma }=\sqrt{\hat{\sigma ^{2}}}=\sqrt{\frac{\sum (x_{i}-\bar{x})^{2}}{n-1}}$
자유도
자유도는 통계량을 계산할 때 자유롭게 값을 취할 수 있는 데이터의 수를 말하는 것으로, 표본크기 n에서 제약 조건의 수를 뺀 값입니다.
제약조건
자유도를 정하는 수로, 통계량에 사용하는 평균 등의 계산값(계산식)의 개수를 말합니다. t 검정이나 독립성 검정에서는 1이지만, 무상관 검정에서는 2, 분산분석(F 검정)에서는 여러개가 됩니다.
'데이터 과학 > 통계학도감' 카테고리의 다른 글
가설검정1 [ 통계학도감8 ] (0) | 2019.11.03 |
---|---|
추측통계학2 [ 통계학도감7 ] (0) | 2019.10.26 |
확률분포2 [ 통계학도감5 ] (0) | 2019.10.17 |
확률분포1 [ 통계학도감4 ] (0) | 2019.10.15 |
기술통계학2 [ 통계학도감3 ] (0) | 2019.10.14 |