가설 검정 한번에 정리하기
(1) 추론통계 개요
(2) 가설 검정의 절차
(3) 주요 용어 정리
(4) 가설 검정 예시
(1) 추론통계 개요
추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다.
요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.
예를 들어 화장품 회사의 구매 고객 데이터 전체는 분석가의 샘플링 단계가 없더라도 표본집단으로 보고, 수집하지 못한 다른 회사의 화장품 구매 고객데이터나 다음 달 구매 고객 데이터는 모집단이라고 본다.
추론 통계시 주로 집중하는 부분은 아래와 같다.
1. 표본집단은 모집단을 대표할 수 있는지?
모집단의 일부인 표본을 보고 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영하고 있어야 한다.
2. 표본의 확률분포는 어떠한지?
어떤 분포이냐에 따라 추정을 위한 기법이 달라지기 때문에 중요하다. 다만 표본의 수가 많아질 수록 정규분포에 근사하게 된다.
3. 추정된 결과는 신뢰성이 있는지?
추정된 결과를 활용할 수 있는지를 결정하는 요소이기 때문에 중요하다.
(2) 가설 검정의 절차
가설 검정의 절차는 [ 가설 설정 ▶유의수준 설정 ▶ 검정통계량 산출 ▶ 기각/채택 판단 ] 순의 과정으로 이루어지게 된다.
각각의 상세한 과정은 (4) 가설 검정 예시 에서 설명하겠다.
(3) 주요 용어 정리
1. 가설
귀무가설 (=영가설=H0)
일반적으로 맞다고 가정하는 가설을 말한다.
대립가설 (=H1)
새롭게 맞다고 증명하려는 가설을 말한다.
통계 강의를 들어보면 대립가설은 우리가 증명하려는 가설이라고 가르치기 때문에 마치 분석기법을 적용할 때 우리가 대립가설이 뭔지 정해줘야 하는 것처럼 착각이 일기도 한다. 하지만 분석기법별 귀무가설/대립가설은 이미 정해져 있다고 보면 된다.
예를 들어 회귀분석의 경우 귀무가설은 "설명변수(x)는 반응변수(y)에 영향을 주지 않는다." 이고 대립가설은 "설명변수(x)는 반응변수(y)에 영향을 준다." 이다.
그래서 편하게 기억하자면,
귀무가설은 차이가 없다, 영향력이 없다, 연관성이 없다, 효과가 없다.
대립가설은 차이가 있다, 영향력이 있다, 연관성이 있다, 효과가 있다. 라고 기억하는 게 편하다.
2. 검정방법 (양측검정, 단측검정, 좌측검정, 우측검정)
양측검정
귀무가설을 기각하는 영역이 양쪽에 있는 검정을 말한다.
대립가설이 000가 아니다(크거나 작다) 라면 양측검정을 사용한다.
단측검정
귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정을 말한다.
대립가설이 000 보다 작다 또는 크다 인 경우 단측검정을 사용한다.
좌측검정
단측검정 중 하나로, 귀무가설을 기각하는 영역이 왼쪽에 있는 검정을 말한다.
대립가설이 000 보다 작다 인 경우 좌측검정을 사용한다.
우측검정
단측검정 중 하나로, 귀무가설을 기각하는 영역이 오른쪽에 있는 검정을 말한다.
대립가설이 000 보다 크다 인 경우 우측검정을 사용한다.
3. 신뢰/유의
신뢰수준
가설을 검정할 때 얼마나 빡빡하게 검정할 것인지를 결정하는 수준을 말한다.
연구활동은 99%, 일반적으로는 95%, 단순설문조사는 90% 정도의 신뢰수준을 사용한다.
유의수준 (α)
가설을 검정할 때 이 정도까지 벗어나면 귀무가설이 오류라고 인정하겠다 하는 수준을 말한다.
유의수준 = 1 - 신뢰수준
유의수준 = ∑ 기각역
기각역
확률분포에서 귀무가설을 기각하는 영역을 말한다.
기각역에 검정통계량이 위치하면 귀무가설을 기각한다.
양측검정인 경우 기각역은 유의수준 / 2 이고, 단측검정인 경우 기각역은 유의수준과 같다.
신뢰구간
신뢰수준에 포함되는 x값 구간을 말한다.
임계치
신뢰구간에서 기각역으로 넘어가는 기준이 되는 x값을 말한다.
검정통계량
가설을 검정하기 위한 기준으로 사용하는 값(t값 등)을 말한다.
검정통계량이 확률분포 상에 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않는다.
유의확률 (p-value)
자유도를 고려했을 때 검정통계량에 대한 확률을 말한다. (귀무가설의 신뢰구간을 벗어나는 확률)
기각역보다 유의확률이 작아야 귀무가설을 기각할 수 있다.
자유도
x값이 가질 수 있는 값의 범위를 말한다.
자유도가 주어지지 않는 경우, 자유도= 표본수(n) - 1
(4) 가설 검정 예시
대한민국 남성의 평균 키가 175가 아니라는 가설을 검정하고자 한다.
1. 가설 설정
귀무가설 : 대한민국 남성의 평균 키는 175이다.
대립가설 : 대한민국 남성의 평균 키는 175가 아니다. (크거나 작다.)
2. 유의수준 설정
기본적으로는 귀무가설이 맞지만 표본이 신뢰수준 95%를 벗어나는 정도로 귀무가설이 틀렸다면 귀무가설을 기각하겠다.
검정통계량이 유의수준 5%에 속한다면 귀무가설을 기각하겠다.
3. 검정통계량 산출 (표본 추출)
가설을 검정하기 위해 모집단에서 남성 10명의 키를 샘플링했다.
샘플링한 표본의 평균은 185이었고 표준편차는 5였다.
(185 - 175) / 5 = 2 이므로 검정통계량(t값)은 2이다.
아래 t분포표에서 t값이 2인 경우의 유의확률을 찾아본다.
자유도는 표본수 - 1 이므로 자유도는 10 - 1 = 9 이다.
자유도가 9인 행에서 t값이 2인 곳은 확률 0.05와 0.025 사이이다.
임계치는 t분포표에서 자유도와 기각역의 확률이 교차하는 t값이다.
양측검정이므로 기각역이 유의수준 / 2 = 0.05 / 2 = 0.025 이다.
자유도가 9이면서 확률이 0.025인 t값은 2.262 이고 이 값이 임계치이다. (양측검정이니 엄연히 말하자면 임계치는 ±2.262 이다.)
4. 기각/채택 판단
확률분포 상에서 보면 아래와 같이 임계치 2.262보다 t값은 2로 작고, 유의확률도 0.05와 0.025 사이의 값을 갖기 때문에 기각역 0.025보다 크다.
검정통계량(t값)이 기각역에 속하지 않으므로 귀무가설을 기각할 수 없다.
따라서 대한민국 남자의 키는 175이다. 라는 귀무가설은 (이 표본 데이터 상으로는) 기각할 수 없다. (오류가 아니다.)
하지만! 이 결과를 승복하지 못하고 표본을 다시 뽑았다고 하자.
다시 표본을 20개를 뽑았더니 평균이 169, 표준편차는 2가 나왔다.
위 공식에 따라 검정통계량(t값)은 (169 - 175) / 2 = -3 이다.
자유도는 20 - 1 = 19 이고 양측검정으로 기각역은 0.05 / 2 = 0.025 이니 t분포표에 따라 임계치는 2.093 이다. (양측검정이니 엄연히 말하자면 임계치는 ±2.093 이다.)
검정통계량(t값)이 기각역에 속하므로 새로운 표본으로는 귀무가설을 기각할 수 있다.
따라서 새로운 표본으로 검정한다면 대한민국 남성 키의 평균은 175가 아니다 라는 대립가설을 채택할 수 있다.
이렇게 표본에 따라 귀무가설이 기각되기도 하고 기각되지 않을 수 있으므로 표본은 모집단을 대표할 수 있도록 잘 샘플링 하는 것이 매우 중요하다.
#r#rstudio#가설검정#기초통계#데이터#데이터분석#빅데이터분석#추론통계#통계#통계분석
'회사생활 > 통계학 공부' 카테고리의 다른 글
Linear Regression / 선형 회귀분석 (18) | 2017.07.02 |
---|---|
Recommendation Algorithms / 추천 알고리즘 개요 (0) | 2017.04.27 |
Dummy Variable / 더미변수 / 가변수 (31) | 2017.03.28 |
Logistic Regression / 로지스틱 회귀분석 (6) | 2017.03.21 |
KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 (4) | 2017.03.14 |