본문 바로가기
  • Fearless
계량경제학/계량경제학

[계량경제학] 9. multiocollinearity

by Albatross 2021. 12. 8.
반응형

1. Nature of multicollinearity

다중공선성에는 두가지 종류가 있다. 

첫째, 두 변수가 완벽한 선형관계에 놓이는 완전공선성, 두번째는 완벽하진 않지만 상관성이 매우 높은 다중공선성이 그것이다. 

 

Ch.8에서 보았듯이 X변수가 모형 내에 존재하는 상황에서 Z변수를 넣는 경우, 1종오류를 범할 가능성이 있다.

만약 1종오류를 범했다면 X와 Z간의 상관계수에 따라 LS estimator의 분산이 위 식대로 도출된다. X와 Z의 상관성이 매우 높은, 즉 다중공선성이 존재하는 상황이라면 b2는 E(b2)=β2라서 과녁의 중앙에 존재하지만, V(b2)가 Z변수를 포함하지 않은 경우의 분산인 V(b2*)보다 커지게 되어 산발적으로 존재하는 모습이 된다. 이 경우 LS estimator b2는 BLUE가 아니게 된다. 

조금 더 직관적으로 설명하자면, 결국 우리가 구하려고하는 LS estimator란 다른 변수의 변화량이 없을 때 오직 한 설명변수가 종속변수의 변화에 미치는 영향력, 즉 direct effect를 뜻한다. 그런데 만약 모형 내 다른 변수와 밀접한 상관성을 갖고 있다면 이 direct effect를 구하기 어려워진다. 

 

간단한 예를 들자면, 연봉과 월급의 경우가 있다. 연봉=12*월급이라는 점에서 이 둘은 perfect collinearity를 가진다. 

 

high collinearity는 perfect는 아니지만 여전히 높은 상관성을 보인다. 이 경우 X2와 X3은 X3=5X2라는 완전공선성을 보이는데, X2와 X3*는 X3=5X2+v라는 high multicollinearity를 보인다. 

 

 

2. Problems of multicollinearity

1) Perfect Collinearity makes the coef indeterminate

설명변수가 2개인 회귀식에서 b2는 위의 식을 통해 도출된다. 

만약 X와 Z간의 perfect collinearity가 존재한다면, 이 둘은 분자와 분모가 모두 0이 되어 b2를 추정할 수 없게 된다. 

따라서 애시당초 b2에 대한 식조차 쓰지 못하니 이를 estimate할 수 없는 것이다. 

계속 언급하는 내용이지만, ex2를 보면 LS of y on (1,X)를 돌렸는데 β2가 아니라 β2+λβ3가 도출되는 것을 확인할 수 있다. 즉 X에 대해서만 회귀분석을 해봐도 direct effect를 구할 수 없다는 뜻이다. 

간단한 예시를 통해 직관적으로 이해해보자. y가 저축량, X가 연봉 Z가 월급이라고 가정하자. 둘다 소비와 양의 상관성을 가질 것이다. 그러나 결국 연봉=12*월급이기 때문에 연봉 그 자체가 소비의 변화에 미치는 direct effect를 구할 수는 없는 것이다. 분명 β2+λβ3의 값이긴 한데 그 중 어느만큼이 β2인지 정확히 모르는 것이다.

 

2) Perfect Collinearity makes the variance infinite

완전공선성이 성립하는 경우에 이전에 봤던 V(b2)식의 상관계수가 1이 되기 때문에 V(b2)가 무한이 된다. 

이 때 1/(1-Γxz^2)가 분산확대요인(Variance inflation factor, VIF)로 불리운다. 이후 다중공선성의 정도를 측정하기 위한 지표로 활용되며, 통상적으로 Γxz^2가 0.9를 넘어 VIF가 10 이상이 되면 다중공선성이 매우 높다고 말한다. 

 

3) High multicollinearity makes the variance of coef

두변수간 상관계수가 높아 V(b2)의 분산이 높아지면, b2의 분포가 기존 분포보다 좀 더 펑퍼짐한 형태가 될 것이다. 

이 경우 이전에는 같은 신뢰도로도 t-test를 통과할 수 있었는데 아무래도 tail쪽이 뚱뚱해지다보니 t-ratio가 감소하게 된다. 따라서 t-test를 통과하지 못해 βj=0이라는 귀무가설이 성립하는 경우가 잦아진다.

직관적으로 생각해보면 다중공선성 때문에 b2가 과녁의 중심에는 위치하지만 산재할 가능성이 높아졌기 때문에 LS estimator로서의 b2 정확도가 떨어진 격이 된다. 

 

4) High R^2, F-statistics but low t-ratio

다중공선성 때문에 독특한 현상이 발생한다. 다중공선성을 가짐에도 불구하고 한 변수가 종속변수를 잘 설명한다면 결정계수는 여전히 높을 것이고, F-statistics 또한 높을 것이다. 그러나 개별 변수에 대해 t-test를 돌릴 경우 기존 대비 Sb2가 급격히 높아지기 때문에 t-ratio는 급감하는 모습을 보인다. 

 

 

3 Detection of High multicollinearity & Remedy

다중공선성을 탐지하기 위해선 위 두 상황을 주시할 필요가 있다. 

첫째 결정계수가 매우 높은데 t-ratio가 낮은 경우, 둘째 LS of Xj on (1, X2, X3, ... Xk)의 결정계수를 구하는 방법이 있다. 

공부가 부족한지라 후자를 어떤 의미로 사용하는지에 대해 개인적으로 고민해봤는데, 다음과 같은 예시를 통해 설명할 수 있을듯 하다. 

LS of 소비 on (1, 영끌연봉, 월급)이라고 가정하자. 영끌연봉=12*월급+v(random)의 특성을 가져 영끌연봉과 월급은 매우 높은 상관계수를 가진다. 이 때 위의 두번째 방법처럼 LS of 영끌연봉 on (1, 월급)을 돌린다면, β3/β2가 12와 매우 근사할 것이다. 그런데 이 경우 TSS=ESS+RSS인데, ESS가 RSS에 비해 압도적으로 크기 때문에 ESS, 즉 결정계수가 1에 매우 근접한 값이 도출된다. 아마 이러한 상황을 관찰하기 위해 Xj에 대한 LS를 돌리는 듯하다. 

추가적으로 상술한 VIF를 특정 기준을 세우고 판단하는 것도 매우 유용한 방법이다. 

 

데이터를 분석할 때, 설명변수의 수를 줄이려고 노력하는 것은 자원의 낭비를 막기 위함이다. 

설명변수의 수가 늘어날수록 그 변수의 유의미함과는 무관하게 모형의 결정계수는 늘어난다. 그러나 설명변수를 계속 추가하면 회귀식 돌릴 때 투입해야할 정보의 양이 증가한다. 따라서 우리는 이를 방지하기 위해 모형의 적합도를 최적화하는 것이다. 

다중공선성은 direct effect를 보여주는 LS estimator에 대한 추정을 어렵게 만드는 단점이 존재한다. 따라서 이를 해결하기 위해 1) 두 변수 중 하나를 제거하거나, 2)PCA(주성분분석), 3)ridge regression(릿지분석)을 시도하면 된다. 기초 계량경제학 개념을 다룬 뒤, 이를 다루는 글을 게시하려고 한다. 

반응형