1. Motivation
dummy variable을 사용하는 동기는 명확하다. 키와 몸무게처럼 정량적 지표로 표기할 수 있는 데이터는 문제가 회귀분석을 할 때 문제가 되지 않는다. 그러나 성별 혹은 인종과 같은 정성적 지표는 dummy variable이라는 정량화 변수를 거쳐야만 한다.
아래 표기한 예시와 같이 남녀간 임금격차를 회귀분석을 통해 확인할 때 dummy variable이 사용된다.
LS of y on (1, X)인 regression model이 있다. 이 때 X는 연차, Y는 임금을 나타낸다. 따라서 자연스레 상수는 초봉이 되고, 연차 앞의 회귀계수는 임금상승률이 된다. 남녀간 모형의 구조는 똑같고 데이터가 나눠져있을 때 이를 비교하기 위해선 하나의 모형으로 합쳐야할 필요가 있다.
2. Intercept dummy variables
intercept, 즉 회귀식의 상수항을 분석하기 위해 사용되는 dummy variable을 살펴보자.
만약 남녀간 임금격차 중 초봉을 비교하고 싶다면, 여자면 0, 남자면 1인 Dummy variable을 설정하면 된다.
이를 두 분리된 회귀식에 곱하여 yi를 구하면, 남성일때 Di=1이 되면서 yi=α2+r+βXi+ei가 되며 여성일때는 r이 빠진 형태가 된다. 이 때 r이 (α1-α2), 즉 남성초봉과 여성초봉의 차이라는 점에서, 만약 남녀 임금격차가 있다면 r이 양의 값을 갖게 되어 null hypothesis인 α1=α2를 기각하게 된다. 결과적으로 이는 r값에 의존하기 때문에 남녀 임금격차를 알기 위해선 LS of y on (1, D, X)를 구하면 되는 것이다.
이는 실제로 intercept dummy variable, D를 회귀식에 포함하여 돌려본 것이다.
여성의 초봉인 a2가 해당 모형의 상수항이 되기 때문에 여성의 초봉은 17.564이며, Dummy variable인 Male의 회귀계수가 6.776이기 때문에 남성의 초봉은 (17.564+6.776)인 24.34가 된다.
따라서 남녀간 임금격차가 존재하지 않는다는 null hypothesis를 t-test를 통해 검증하기 위해서는, r estimates의 t-ratio를 통해 기존 검증작업을 해주면 된다.
만약 dummy variable을 여성이면 1이 되도록 설정하면, 해당 Female 변수의 회귀계수값은 위 r값을 음수전환해준것과 같은 값이 도출된다.
시계열데이터를 살펴볼 때도 dummy variable은 유용하게 사용된다. 만약 특정 시점을 기준으로 정책효과나 경제의 구조적 변화를 살펴보기 위해선 위와 같이 after policy, D=1로 dummy variable을 설정해주면 된다.
dummy variable은 단순히 binary한 상황에만 사용되는 것이 아니라 중졸, 고졸, 대졸, 대학원졸 등 다양한 category로 세분화할 때 유용하게 사용된다. 이 때 M개로의 group화를 할 때는 M-1개의 dummy variable만 있으면 된다.
회귀식의 default값이 될 상수하나만 정해주면 나머지 변수는 그 default 상수값에 더해지는 δ1, δ2, δ3로 표현되기 때문이다.
예를 들어서, 학력이 소득에 미치는 영향을 파악하기 위해 중졸이하, 고졸, 대졸이상으로 3가지 group으로 묶는다고 가정하자. 이 경우 중졸이하의 초봉인 4.217이 회귀식의 default 상수값으로 설정되고, 고졸이면 dummy variable H의 회귀계수 3.691만큼 더해진 7.908이 초봉이 되며, 대졸의 경우 dummy variable C의 회귀계수인 8.478이 더해진 12.695가 초봉이 된다.
한 단계 더 나아가, 이러한 dummy variable이 두 개가 있는 경우를 생각해보자.
만약 성별에 따른 임금격차와 학력에 따른 임금격차 두 변수를 모두 회귀식에 포함할 경우 위왁 같은 결과가 도출된다.
기본적으로 여성 중졸의 초봉인 a를 회귀식의 default값으로 설정한 뒤, 남성의 경우 r만큼 임금이 높으니 남성인 경우 해당 회귀계수만큼 여성중졸초봉 a에 더해주면 된다. 그리고 남여에 관계없이 학력에 따른 임금차이는 H, C, G의 회귀계수인 δ1, δ2, δ3만큼 더해준다. 예를 들어, 여성고졸의 초봉이 a(여성중졸-default)+δ1(고졸)이라면, 남성대학원졸은 a+r(남성)+δ3(대학원졸)이다.
그렇다면 만약 같은 정성지표를 나타내는 dummy variable을 동시에 사용하면 어떻게 될까?
위 회귀식에서 D는 남성이면 1을, 여성이면 0을 반환하는 변수이며, F는 남성이면 0을, 여성이면 1을 반환하는 변수다.
이 경우 Di+Fi=1이라는 서로간의 완전공선성이 존재한다. λ1Di+λ2Fi-λ3=0일 때 오직 (λ1,λ2,λ3)=0이어야만 선형독립인데, 이 경우 Di=1, Fi=0일때 (λ1,λ2,λ3)=(1,1,-1)이면 0벡터가 도출되기 때문에 독립변수 D, F는 서로 선형종속의 관계인 것이다.
따라서 이 경우 multiple regression model의 대전제인 "독립변수 간에는 상관성이 있더라도 완전공선성을 나타내진 않는다"가 정면으로 위배된다. 따라서 위 회귀식의 RSS는 0이 아니게 되며, 이 때문에 TSS=RSS+ESS의
(∂ø/∂b1)가
3. Slope dummy variable(α1=α2,β1!=β2)
앞서 살펴본 dummy variable은 상수항에 대한 것이었고, 이번에는 회귀계수의 dummy variable을 살펴본다.
동일한 작업을 거쳤을 때, β는 default로 설정된 여성의 임금상승률이며, 남성의 경우 dummy variable Di=1이 되어 r만큼의 추가적인 상승분을 확인할 수 있다.
예를 들어, Age(연차)에 붙은 0.334는 default로 설정된 여성의 임금상승률이며, dummy variable Male에 붙은 0.193은 남성이기 때문에 받은 추가적으로 높은 임금상승률을 뜻한다.
따라서 남성을 대상으로는 이 둘을 합한 0.527만큼의 임금상승률이 적용된다.
intercept와 slope에 대한 dummy variable을 위와 같이 동시에 포함하여 회귀분석을 할 수도 있다.
단 이 때는 null hypothesis가 restriction으로 작용하기 때문에 SSRr과 SSRu간의 비교를 해주는 F-test를 진행한다.
4. Seasonal adjustment
시계열데이터는 보통 계절적 특성을 반영한다. 대표적 예로 아이스크림 판매량, 미국의 소비판매량이 있다.
이러한 계절적 특성을 제거하는 것이 통계적으로 유의미한 결과값을 도출하는데 도움된다.
봄,여름,가을,겨울 4계절에 의한 seasonal effect를 분석하기 위해 3개의 dummy variable을 도입한다.
봄을 default값으로 설정하고, 나머지 계절은 이에 추가적으로 붙는 상수값으로 판단한다 .
밑의 민간소비 예시를 보면, 첫번째 dummy variable 즉 여름에 해당하는 설명변수의 회귀계수가 유의미하게 큰 것을 확인할 수 있다. 이는 성수기에 소비가 늘어나는 특성을 잘 나타낸다.
시계열 데이터에는 추세, 계절성, 오차가 존재한다. 관측치에는 이러한 특성이 어우러져 나타나기 때문에 시계열 데이터의 추세를 최대한 잘 관측하기 위해 seasonality를 제거하려고 하는 것이다.
'계량경제학 > 계량경제학' 카테고리의 다른 글
[계량경제학] 12. autocorrelation (0) | 2021.12.14 |
---|---|
[계량경제학] 11. Heteroscedasticity (0) | 2021.12.09 |
[계량경제학] 9. multiocollinearity (0) | 2021.12.08 |
[계량경제학] 8. model specifications (0) | 2021.12.08 |
[계량경제학] 7. multiple regression model (0) | 2021.12.08 |