데이터 과학 (17) 썸네일형 리스트형 가설검정1 [ 통계학도감8 ] 가설검정 관측된 여러 평균이나 분산 사이의 차이가 모집단에도 있다고 해도 될지의 여부를 판정한다. 비교할 통계량의 종류에 따라 여러가지 검정이 있다. 특정 값과 표본 평균의 검정 특정 비율과 표본비율의 검정 특정 분산과 표본분산의 검정 무상관 검정 평균 차이 검정 등분산 검정 비율 차이 검정 검정에서는 모집단에 관한 가설이 옳은지 어떤지 확률적으로 판정하기 위해 어떤 가설을 세울 것인지가 아주 중요하다. 귀무가설 연구에서 채택하고 싶은 내용과는 반대되는 가설을 말한다. '차이가 없다'거나 '처리 효과가 없다'와 같은 내용이다. 검정은 이 가설을 반증해 보는 것이다. 대립가설 귀무가설이 기각되었을 때, 대신 채택되는 가설을 말한다. 본래 연구에서 주장하고 싶은 내용이다. 유의수준 어느 정도의 정확도로 귀무.. 추측통계학2 [ 통계학도감7 ] 지난 시간에 이어 표본통계량의 분포에 대해 알아보겠습니다. 개별 관측 데이터 뿐만 아니라 표본통계량도 확률분포를 따르는데요, 다만 분포의 형태는 통계량에 따라 다르므로 대표적인 표본평균, 표본비율, 표본분산, 표본상관계수의 분포를 포스팅해보겠습니다. 표본분포(표본통계량의 분포) 표본분포는 통계량의 값이 다르기 때문에 불규칙한 분포를 보입니다. 이때, 불규칙한 분포 크기(표준편차)를 표준오차라 하고, 오차 범위를 예측하는 데 사용합니다. 표본평균의 분포(정규분포) 표본의 크기가 충분히 커지면, 표본평균 $\bar{x} $의 분포는 정규분포를 따릅니다. 표준화한 표본평균의 분포 표준화한 표본평균 $z_{\bar{x} }$는 표분정규분포(z 분포)를 따릅니다. $z_{\bar{x} }=\frac{\bar{x}.. 추측통계학1 [ 통계학도감6 ] 추측 통계학은 관측 데이터(표본)로부터, 그 배경에 있는 모집단의 특성을 추측하는 학문입니다(기술통계학은 추출된 관측데이터의 특징만을 파악하기 때문에 모수 추측은 하지 않습니다). 데이터가 적을 경우에도 분석 결과가 잘못되지 않도록 '오차'라는 개념을 도입하는 것이 기술통계학과 다른점입니다. 추측통계학은 표본을 사용해 그 추출원인 모집단의 특징(모수)를 추측합니다. 모수 모수란 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값으로, 파라미터라고도 합니다. 대표본과 소표본 대표본일수록 정밀도가 높은 추측이 가능합니다. 소표본에 기술통계학적 방식을 그대로 이용하면 추측의 정도가 낮아지며, 검정 등이 잘못될 가능성이 있습니다.(소표본의 문제) *명확하게 정해진 것은 없지만 n 확률분포2 [ 통계학도감5 ] 시그마 구간 표준화하면 데이터가 표준정규분포의 어디에 있는지 대략적인 위치를 알 수 있습니다. $z$ 의 값이 $3\sigma $ 밖에 있을 때, 그 데이터는 정규분포에서는 잘 일어나지 않는 수입니다. 따라서 이상치일 가능성이 크다는 것을 보여줍니다. 왜도와 첨도 대부분의 정규분포는 좌우가 대칭을 이루는 종 모양으로 나타나지만 그렇지 않는 정규분포도 있습니다. 왜도와 첨도는 표준정규분포 모양이 정규분포에서 어느 정도 벗어나는지를 측정하기 위한 지표입니다. 왜도 분포가 좌우대칭인지. 왼쪽이나 오른쪽으로 치우쳐져 있는지, 분포의 비대칭도를 나타내는 지표입니다. 왜도 $S_{w}$은 다음 식을 사용해 계산합니다. $S_{w}=\frac{1}{n}\left \{ (\frac{x_{1}-\bar{x}}{s})^{.. 확률분포1 [ 통계학도감4 ] 확률과 확률분포 결과는 우연히 정해지는 것이지만, 그 결과를 예측할 때는 확률이나 확률분포를 이용한다. 확률분포는 추측통계학의 기초입니다. 사상 실험이나 관측 등의 행위(시행)에 의해 생긴 결과를 말한다. 주사위 던지기의 예에서는 '나온 눈'이 사상에 해당합니다. 확률 어느 사상이 어느 정도 일어나기 쉬운지(우연성의 정도)를 수치화한 것이다. 모든 사상에 대한 확률을 합치면 1이 됩니다. 확률변수 시행해 봐야 비로소 결과를 알 수 있는 변수를 말합니다. 여기서, 값의 수가 유한한 것을 '이산확률변수', 값의 수가 무한한 것을 '연속확률변수'라고 합니다. 균일분포 - 확률이 같은 분포 각 사상이 일어나는 확률이 같은 분포를 균일분포라고 합니다. 주사위나 다트가 연속균일분포에 해당합니다. 기준에서 다트가 있.. 기술통계학2 [ 통계학도감3 ] 여러가지 평균에 대해서 알아봤는데요, 이번엔 데이터의 분산과 변수의 관련성에 대해서 알아보겠습니다. 이를 알아보는 이유는 평균만으로는 데이터가 어떻게 흩어져 있는지 모르기 때문입니다. 따라서 최댓값, 최솟값, 분위수, 사분위 범위, 분산(표준편차) 등의 지표를 이용하여 데이터의 흩어진 정도를 파악합니다. 분위수 n개의 데이터를 작은 순서대로 나열해 놓고, 그것을 k등분 했을 때 경계가 되는 수를 분위수라고 합니다. 4분위수를 가장 많이 쓰는데, 2분위수는 중앙값이라고도 합니다. 사분위 범위 제 3사분위수와 제 1사분위수의 차를 말합니다 데이터가 중앙값 주위에 집중될수록 사분위 범위는 작아집니다. 분산 $s^{2} = \left \{ (x_{1}-\bar{x})^{2}+(x_{1}-\bar{x})^{2}+.. 기술통계학1 [ 통계학도감2 ] 이번 기술통계학 포스팅에서 알아볼 부분은 여러가지 통계와 분산, 변수의 관련성이다. 여러가지 평균 1. 산술평균 x의 산술평균은 아래와 같이 계산한다. 여기서 x는 변수, n은 데이터의 개수이다. ${\bar{x}} = (x _{1} +x _{2} +x _{3} + \cdots +x _{n-1} +x _{n} )÷n$ 산술평균을 이용하는 예시 33명으로 구성된 한 학급이 있다. 이 학급의 평균 키를 구하여라. 월별 전기요금의 평균을 구하여라. 2. 기하평균 x의 기하평균은 아래와 같이 계산한다. G는 Geometric(기하)이다 ${\bar{x_{g}} = \sqrt[n]{x_{1} \cdot x_{2} \cdot x_{3} \cdot \cdots \cdot x_{n-1} \cdot x_{n}}}$ 기하.. 통계학이란 [ 통계학도감1 ] 통계학은 데이터를 통계량(평균 등)이나 그림, 표로 정리하여 그 특징을 파악하는 학문이다. 통계학의 종류 기술통계학 : 수집된 데이터의 특징을 파악한다. 추측통계학 : 기술통계학의 배경에 있는 모집단의 특징을 표본으로부터 파악한다. 베이즈 통계학 : 최근 마케팅 등에서 주목받고 있다. 기술통계학에선 평균이나 분산, 상관함수 등을 다루고 추측통계학에선 불편추정, 신뢰구간의 추정, 가설검정, 다변량 분석을 한다. 통계학으로 할 수 있는 것을 알아보자 앞으로 내가 포스팅할 내용들도 포함되어 있다 인구조사 정리 (평균과 분산) 식사량과 체중의 상관관계 분석 (상관계수) 한 반의 편차값 계산 (표준화 변량) 편의점 상품 구입 방법 (빅데이터) 보험사고 발생 횟수의 예측 (포아송.. 이전 1 2 3 다음