본문 바로가기

데이터 과학/통계학도감

추측통계학2 [ 통계학도감7 ]

지난 시간에 이어 표본통계량의 분포에 대해 알아보겠습니다.

개별 관측 데이터 뿐만 아니라 표본통계량도 확률분포를 따르는데요,

다만 분포의 형태는 통계량에 따라 다르므로 대표적인 표본평균, 표본비율, 표본분산, 표본상관계수의 분포를 포스팅해보겠습니다.

 

표본분포(표본통계량의 분포)

표본분포는 통계량의 값이 다르기 때문에 불규칙한 분포를 보입니다.

이때, 불규칙한 분포 크기(표준편차)를 표준오차라 하고, 오차 범위를 예측하는 데 사용합니다.

 

표본평균의 분포(정규분포)

표본의 크기가 충분히 커지면, 표본평균 $\bar{x} $의 분포는 정규분포를 따릅니다.

 

표준화한 표본평균의 분포

표준화한 표본평균 $z_{\bar{x} }$는 표분정규분포(z 분포)를 따릅니다.

$z_{\bar{x} }=\frac{\bar{x}-\mu }{\sigma /\sqrt{n}}$

 

모분산을 알 수 없기 때문에 불편표준오차로 스튜던트화한 표본평균 $t_{\bar{x} }는 t 분포(자유도 n-1)를 따릅니다.

$z_{\bar{x} }=\frac{\bar{x}-\mu }{s /\sqrt{n-1}}$

 

표본비율의 분포(정규분포)

표본비율 $\hat{p} $의 분자인 '어떤 성질을 갖는 요소의 수 x'는 이항분포를 따릅니다.

그러므로 표본비율도 표본 크기 n이 커지면 정규분포를 따릅니다.

 

표본분산의 분포($x^{2}$ 분포(자유도 n-1))

표본분산 $s^{2}$이 따르는 확률분포는 없으므로 $x^{2}$ 분포를 따르도록 표본분산 $s^{2}$, 또는 불편분산 $\hat{\sigma }^{2}$과 비례하는 통계량으로 변환합니다.

모분산의 구간추정이나 검정에서 이용합니다.

 

상관계수의 분포(정규분포) [$p\not\neq 0$인 경우]

모상관계수 p가 0이 아닌 경우, 표본상관계수 r은 기울어진 분포를 따르기 때문에 이대로는 사용할 수 없습니다.

그러나 피셔의 z 변환을 하면 정규분포를 따르기 때문에, 예를 들면 모상관계수의 신뢰구간의 추정(66쪽)으로 사용할 수 있게 됩니다.

피셔의 z 변환

표본상관계수가 r인 모상관계수 p=0.8의 분포를 피셔의 z 변환을 하게되면 다음과 같습니다.

$z_{r}=\frac{1}{2}ln(\frac{1+r}{1-r})$

 

대수의 법칙

표본 평균도 표본 크기가 많아짐에 따라 참값인 모평균에 가까워집니다.

중심극한정리

개별데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히 크면 표본평균은 정규분포한다는 것을 보증합니다.

오차의 경우, 방향성을 갖지 않는 우연 오차라도 표본이 커지면 0을 중심으로 한 정규분포에 가까워집니다.