시그마 구간
표준화하면 데이터가 표준정규분포의 어디에 있는지 대략적인 위치를 알 수 있습니다.
$z$ 의 값이 $3\sigma $ 밖에 있을 때, 그 데이터는 정규분포에서는 잘 일어나지 않는 수입니다. 따라서 이상치일 가능성이 크다는 것을 보여줍니다.
왜도와 첨도
대부분의 정규분포는 좌우가 대칭을 이루는 종 모양으로 나타나지만 그렇지 않는 정규분포도 있습니다. 왜도와 첨도는 표준정규분포 모양이 정규분포에서 어느 정도 벗어나는지를 측정하기 위한 지표입니다.
왜도
분포가 좌우대칭인지. 왼쪽이나 오른쪽으로 치우쳐져 있는지, 분포의 비대칭도를 나타내는 지표입니다.
왜도 $S_{w}$은 다음 식을 사용해 계산합니다.
$S_{w}=\frac{1}{n}\left \{ (\frac{x_{1}-\bar{x}}{s})^{3}+(\frac{x_{2}-\bar{x}}{s})^{3}+\cdots +(\frac{x_{n}-\bar{x}}{s})^{3} \right \}=\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{3}$
왜도가 양인 경우, 정규분포보다 뾰족한 곳이 왼쪽으로 치우쳐 있고, 꼬리는 오른쪽으로 길어집니다.
왜도가 음인 경우, 정규분포보다 뾰족한 곳이 오른쪽으로 치우쳐 있고, 꼬리는 왼쪽으로 길어집니다.
첨도
분포의 산의 뾰족한 정도를 나타내는 지표입니다.
첨도 $S_{k}$은 다음 식을 사용해 계산합니다.
$S_{k}=\frac{1}{n}\left \{ (\frac{x_{1}-\bar{x}}{s})^{4}+(\frac{x_{2}-\bar{x}}{s})^{4}+\cdots +(\frac{x_{n}-\bar{x}}{s})^{4} \right \}-3=\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}-3$
첨도가 양인 경우, 정규분포보다 급격히 분산이 작아지는 경향이 있습니다. (뾰족해집니다)
첨도가 음인 경우, 정규분포보다 급격히 분산이 커지는 경향이 있습니다. (완만해집니다)
포아송 분포 - 드물게 일어나는 분포
포아송 분포는 시행 횟수가 아주 많고, 사상 발생의 확률이 아주 작을 때의 이항분포입니다.
- 한 달에 생산한 물품 중에서 불량품의 수
- 교통사고가 일어나는 수
- 어느 지역에 떨어지는 벼락의 수
포아송 분포는 다음과 같은 함수로 나타낸다.
$\lambda$는 평균값, $x$는 사상이 일어나는 횟수
$f(x)=\frac{e^{-\lambda }\lambda ^{x}}{x!}$
$\lambda$가 커지면 분포 곡선은 오른쪽으로 이동합니다.
동시에, 분산이 커지고 정규분포에 가까워집니다.
$x^{2}$분포 (카이제곱 분포) - 여러 데이터를 동시에 취급하기
$x^{2}$분포는 정규분포를 따르는 여러 데이터를 한꺼번에 취급할 수 있어, 분산분석에 이용할 수 있습니다.
제곱하면 데이터의 수(자유도)에 따라 분포 형태가 달라집니다.
자유도 1의 $x^{2}$분포
하나의 표준정규분포로부터 하나의 데이터를 추출해 제곱합니다.
-0.40도 0.40도 제곱하면 0.16이 되므로 0 부근의 데이터가 많아집니다.
자유도 3의 $x^{2}$분포
3개의 표준정규분포로부터 하나씩 데이터를 추출해 제곱해서 더합니다.
자유도가 1일 때보다 평균값이 커져 분포가 왼쪽으로 이동합니다.
자유도 $m$의 $x^{2}$분포는 $x^{2}_{(m)}$이라고 표기합니다.
표준정규분포에서 추출된 $m$개의 변수 $(x^{2}_{1},x^{2}_{2},\cdots ,x^{2}_{m})$의 $x^{2}$ 통계량($x^{2}$ 값)은 아래와 같습니다.
$x^{2}_{(m)}=z^{2}_{1}+z^{2}_{2}+\cdots +z^{2}_{m}$
정규분포에서 추출된 $m$개의 변수 $(x^{2}_{1},x^{2}_{2},\cdots ,x^{2}_{m})$를 계산하는 경우는 변수 $x_{i}$의 평균을 $\mu _{i}$, 표준편차를 $\sigma _{i}$라 하면 아래와 같이 계산할 수 있습니다.
아래 식에서 좌변의 $x$는 카이, 우변의 $x$는 엑스입니다.
$x^{2}_{(m)}=(\frac{x_{1}-\mu _{1}}{\sigma _{1}})^{2}+(\frac{x_{1}-\mu _{1}}{\sigma _{1}})^{2}+\cdots +(\frac{x_{1}-\mu _{1}}{\sigma _{1}})^{2}$
그리고 원래 정규분포의 평균과 분산이 같을 때는 아래의 식이 됩니다.
$x^{2}_{(m)}=(\frac{x_{1}-\mu }{\sigma })^{2}+(\frac{x_{1}-\mu }{\sigma })^{2}+\cdots +(\frac{x_{1}-\mu }{\sigma })^{2}=\frac{1}{\sigma ^{2}}\sum_{i=1}^{m}(x_{i}-\mu )^{2}$
$x^{2}$의 분포에는 기댓값이 자유도와 같고 분산이 자유도의 두배와 같습니다.
자유도가 늘어나면 $x^{2}$의 그래프가 오른쪽으로 이동해 평평해지는 것은 이 때문입니다.
$F$ 분포
$F$ 값은 2개의 $x^{2}$값의 비로 정의되는데, 그 분포가 $F$ 분포입니다.
각 표본의 $x^{2}$값을 사용하기 때문에 자유도가 2개입니다.
$t$ 분포
모분산을 알 수 없고 표본 크기가 작을 때, 정규분포($z$ 분포)를 이용해 추정 또는 검정을 하면 틀릴 수 있습니다.
이럴 경우는 스튜던트화 변량이 따르는 $t$ 분포를 사용합니다.
자유도에 따라 분포 형태가 달라집니다.
자유도 $m$의 $t$ 분포는 $t_{(m)}$이라고 표기합니다.
주로 소표본의 $t$분포는 정규분포보다 꼬리가 두꺼운 곡선이 됩니다.
그러나 표본의 크기가 클수록 첨도가 작아져 $m\geq 30 $이면 거의 정규분포와 일치합니다.
$z$분포에서 $\bar{x}$의 표준화변량
$z_{\bar{x}}=\frac{\bar{x}-\mu }{\frac{\sigma }{\sqrt{n}}}$
모표준편차 $\sigma $의 값을 모를 때
$t$ 분포의 $\bar{x}$의 스튜던트화 변량
$t_{\bar{x}}=\frac{\bar{x}-\mu }{\frac{s}{\sqrt{n-1}}}$
'데이터 과학 > 통계학도감' 카테고리의 다른 글
추측통계학2 [ 통계학도감7 ] (0) | 2019.10.26 |
---|---|
추측통계학1 [ 통계학도감6 ] (2) | 2019.10.19 |
확률분포1 [ 통계학도감4 ] (0) | 2019.10.15 |
기술통계학2 [ 통계학도감3 ] (0) | 2019.10.14 |
기술통계학1 [ 통계학도감2 ] (0) | 2019.10.02 |