본문 바로가기

회사생활/통계학 공부

Dummy Variable / 더미변수 / 가변수

Dummy Variable / 더미변수 / 가변수




포스팅을 읽어주신 고마운 분과 댓글로 질의응답을 하다가 간단한 내용이니 포스팅 해봐야겠다 생각해서 급하게 글을 쓰고 있다.



(1) 더미변수란?

(2) 더미변수는 왜 만드나?

(3) 더미변수의 특징

(4) 더미변수로 변환하는 법

(5) 더미변수의 의미




(1) 더미변수란?


더미변수는 범주형 변수를 연속형 변수로 변환한 것인데, 정확히 따지자면 연속형 변수"스럽게" 만든 것이다.


-

연속형 변수

숫자로 이루어져 있으며, 끊키는 부분 없이 연속적으로 값을 가질 수 있다.

예를 들면 키, 몸무게, 온도, 나이, 고객수, 구매율 등


범주형 변수

문자 또는 숫자로 이루어져 있으며, 범주(카테고리)가 있다.

예를 들면 학년(1, 2, 3), 혈액형(A, B, O, AB), 성별(남, 여) 등

-



(2) 더미변수는 왜 만드나?


범주형 변수로는 사용할 수 없고 연속형 변수로만 가능한 분석기법을 사용할 수 있게 해준다.


예를 들어 선형 회귀분석, 로지스틱 회귀분석 등 회귀분석 계열은 원래 설명변수가 연속형 변수여야지 사용할 수 있는 분석 기법이다. 하지만 만약 설명변수 중에 범주형 변수가 섞여 있다면, 그 변수를 더미변수로 변환 즉, 연속형 변수스럽게 만들어서 회귀분석을 사용할 수 있다.



▼ 로지스틱 회귀분석 이론 보기 ▼

2017/07/02 - [ANALYSIS/Algorithm] - Linear Regression / 선형 회귀분석



▼ 로지스틱 회귀분석 이론 보기 ▼

2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석


▼ 로지스틱 회귀분석 R 예제 코드 보기 ▼

2017/03/22 - [Analysis/R] - [R 예제 코드] Logistic Regression / 로지스틱 회귀분석




(3) 더미변수의 특징


1.  더미변수는 0 또는 1의 값을 가진다.


해당 더미변수에 속하면 1 아니면 0의 값을 가진다. (기준이 되는 범주는 값이 0이 된다. 자세한 설명은 아래에 있다.)



2.  더미변수는 원래 범주형 변수의 범주 개수보다 1개 적게 만들어진다.


예를 들어 원래 변수가 성별(남, 여)이라면 남성여부 또는 여성여부 둘 중에 하나만 만든다. (범주의 개수 2개, 더미변수 1개)

원래 변수가 학년(1학년/2학년/3학년)이라면 1학년여부와 2학년여부 또는 2학년여부와 3학년여부 또는 1학년여부와 3학년여부 이렇게 만든다. (범주의 개수 3개, 더미변수 2개)


더미변수로 만들어지지 않고 생략되는 범주는 기준이 되는 값이라고 이해하면 된다.




(4) 더미변수 만드는 법



예를 들어 위와 같은 데이터가 있고 장르를 구분하는 로지스틱 회귀분석을 하기 위해 '남주인공역 연예인의 본업' 변수와 '시간대' 변수를 더미변수로 변환하고자 한다.



1.  범주형 변수의 범주 중 기준이 되는 값을 정한다.


기준이 되는 값은 보통 일반적이거나 빈도수가 많은 범주로 선택한다. (꼭 그렇지는 않아도 되지만)


'남주인공 역 연예인의 본업' 변수의 범주는 가수 / 배우 / 개그맨 이렇게 3개인데 나는 이 중 배우를 기준으로 삼겠다.

배우를 기준으로  삼은 이유는 배우는 드라마 출연 연예인의 기본 직업이기 때문이다. 

'시간대' 변수의 범주는 오전 / 오후 이렇게 2개인데 나는 이 중 오후를 기준으로 삼겠다.

-
-


2.  기준이 되는 변수를 제외하고 더미변수를 만든다.


아래 그림처럼 기준인 <배우> 범주와 <오후> 범주를 제외하고 더미변수를 만든다.

그리고 더미변수의 의미에 해당하면 1, 해당하지 않으면 0으로 값을 채운다.


예를 들면 <남주인공_가수> 더미변수에는 가수인 행만 1로 채우고 가수가 아니면 0으로 채운다는 뜻이다.



남주인공 역 연예인의 본업은 1 0 / 0 1 / 0 0 이렇게 바뀐 것을 볼 수 있는데 각각 가수 / 개그맨 / 배우를 의미한다.




이렇게 만든 더미변수 + 연속형 변수로 설명변수를 꾸려서 회귀분석을 돌리면 된다.




(5) 더미변수의 의미


더미변수는 회귀식에서 해당 변수의 효과를 0 또는 상수값으로 만들어 준다. 아래 그림을 보면 더 잘 이해가 갈 것이다.



원래 회귀식에서 x2가 1이면 b만 남아서 y절편은 b+c가 된다.

원래 회귀식에서 x2가 0이면 b도 0이되어서 y절편은 c가 된다.


이처럼 더미변수는 회귀 기울기를 바꾸지는 않고 절편만을 바꾸어 평행하게 움직이게 하는 역할을 한다.

예를 들어 x2가 <시간대_오전> 변수라면 x2가 0(오후)일 때보다 x2가 1(오전)일때 b만큼의 효과가 y에 더해지게 된다는 의미다.


위 예에서 더 나아가 데이터만 받쳐준다면 더미변수를 이용해 가수(아이돌)이 남주인공인 경우 시청율이 얼마나 더 나오는지 예측해 볼 수도 있을 것이다.





#r#rstudio#데이터분석#로지스틱회귀분석#범주형변수더미변수변환#범주형변수변환#범주형변수분석#범주형변수회귀분석#분석#빅데이터분석#선형회귀분석#통계#통계분석#회귀분석