확률과 확률분포
결과는 우연히 정해지는 것이지만, 그 결과를 예측할 때는 확률이나 확률분포를 이용한다. 확률분포는 추측통계학의 기초입니다.
사상
실험이나 관측 등의 행위(시행)에 의해 생긴 결과를 말한다. 주사위 던지기의 예에서는 '나온 눈'이 사상에 해당합니다.
확률
어느 사상이 어느 정도 일어나기 쉬운지(우연성의 정도)를 수치화한 것이다. 모든 사상에 대한 확률을 합치면 1이 됩니다.
확률변수
시행해 봐야 비로소 결과를 알 수 있는 변수를 말합니다.
여기서, 값의 수가 유한한 것을 '이산확률변수', 값의 수가 무한한 것을 '연속확률변수'라고 합니다.
균일분포 - 확률이 같은 분포
각 사상이 일어나는 확률이 같은 분포를 균일분포라고 합니다.
주사위나 다트가 연속균일분포에 해당합니다. 기준에서 다트가 있던 곳까지의 각도를 잰 값은 연속균일분포에 해당합니다.
$x = \left \{ {1, \cdots , n} \right \}$의 값을 취할 때 평균은 $\mu = \frac{n+1}{2}$, 분산은 $\sigma ^{2} = \frac{n^{2}-1}{12}$이 된다.
$x$가 [$\alpha, \beta$]사이에 있을 때 평균은 $\mu = \frac{\alpha + \beta}{2}$, 분산은 $\sigma ^{2} = \frac{(\alpha-\beta)^{2}}{12}$이 된다.
이항분포 - 동전 던지기의 분포
이항분포는 성공이나 실패 같은 사상에 대한 분포를 말한다. 성공이나 실패같이 결과가 두 종류밖에 없는 시행을 베르누이 실행이라고 합니다.
$p = Pr(x=1)$일 때 $n$번의 시행으로 $m$번 성공할 확률은 $_{n}C_{m}\cdot p^{m}\cdot (1-p)^{n-m}$
정규분포 - 종 모양의 분포
정규분포는 평균값을 중심으로 대칭을 이루는 종 모양의 분포입니다.
검정 등에서는 정규분포가 전제되는 일이 많으며, 통계학을 배우는데 있어 가장 중요한 분포라고 할 수 있습니다.
이항분포의 시행 횟수를 늘리면 그 분포는 정규분포에 가까워집니다.
세로죽이 상대도수(도수를 총 수로 나눈 것)로 되어 있으므로 상대도수분포도라고도 합니다.
정규분포의 식(확률밀도함수)은 다음과 같습니다.
$f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$
이 함수를 적분하면 확률을 계산할 수 있습니다.
표준정규분포 - 척도가 없는 분포
표준화란 데이터의 평균값을 0으로, 표준편차(분산)을 1로 변환하는 것입니다. 변환한 데이터를 표준화변량이라고 합니다.
척도(단위)를 의식하지 않고 사용할 수 있습니다.
표준화한 정규분포는 표준정규분포(z 분포)라고 합니다.
표준화
표준화변량은 다음 식으로 구합니다.
$z_{i}=\frac{x_{i}-\mu }{\sigma }$
'데이터 과학 > 통계학도감' 카테고리의 다른 글
추측통계학1 [ 통계학도감6 ] (2) | 2019.10.19 |
---|---|
확률분포2 [ 통계학도감5 ] (0) | 2019.10.17 |
기술통계학2 [ 통계학도감3 ] (0) | 2019.10.14 |
기술통계학1 [ 통계학도감2 ] (0) | 2019.10.02 |
통계학이란 [ 통계학도감1 ] (0) | 2019.09.25 |