본문 바로가기
  • Fearless
계량경제학/계량경제학

[계량경제학] 11. Heteroscedasticity

by Albatross 2021. 12. 9.
반응형

1. Homoscedasticity vs Heteroscedasticity

Homoscedasticity는 regression model의 핵심적인 assumption이다. 특정 관측치를 회귀식에 대입했을 때 발생하는 오차 ε가 모든 관측치에 대해서 동일할 때, 회귀식의 오차가 동분산을 갖는다고 표현한다. 

그러나 현실에서 동분산이 나타나기란 매우 어렵다. 단적인 예로, 설명변수 GDP가 종속변수 제조업 매출액을 예측하는 회귀식이 있다고 가정하자. 이 때 GDP가 낮으면 제조업 매출액이 회귀식에서 크게 벗어나지 않는다. 즉, 회귀식의 오차가 작다. 그러나 GDP가 매우 큰 특정 국가에서는 제조업 매출액이 회귀식에 의한 예측값과 크게 차이나는 것을 확인할 수 있다. 만약 동분산이 현실에서도 적용되었다면 GDP의 대소와 무관하게 회귀식의 오차는 균일해야한다. 그러나 현실은 설명변수의 크기가 커질수록 오차의 분산이 커진다. 

단적인 예로, 연간 소득수준이 2000만원인 사람들과 5억인 사람들이 있다고 가정하자. 

이들의 소득수준을 설명변수로 놓고 그들의 연간저축액을 예측하는 회귀식을 도출한다면, 아무래도 실제 데이터와 예측치 간의 오차는 5억인 group이 더 클 수 밖에 없다. 왜냐하면 소득수준이 2000만원인 사람은 저축을 아무리 많이해도 2천만원인데 반해, 5억인 사람은 저축을 최대로 많이 하면 5억치를 할 수 있기 때문이다. 따라서 숫자의 scale이 커질수록 예측치와의 오차 규모가 애초에 커질 수 밖에 없다. 

 

2. Consequences of Hetero-

이분산의 결과로 나타나는 특성은 다음과 같다. 

1) Assumptions of classical regression model is violated

이분산은 가장 고전적인 회귀모형의 대전제와 위배된다. 즉, Gauss-Markov Theorem이 더 이상 유지되지 않는다.

따라서 LS of y on (1, X)의 LS estimator인 추정회귀계수 b2는 더이상 BLUE(best lienar unbiased estimates)가 아니다. 

그렇다면 이보다 효율적인 추정치가 있을 것이라고 생각할 수 있으며, 우리는 이를 기존 OLS보다 더욱 낮은 분산값을 가진 GLS(generalized least square estimator)으로 부른다. 

 

OLS estimator의 문제점을 돌이켜보자. 

OLS estimator는 (b2, Sb2)로 구성된다. b2는 표본을 활용해 실제모형의 회귀계수인 β2을 추정한 값이며, Sb2는 b2값의 표본오차값이다. 따라서 우리는 추정치 (b2, Sb2)의 효율성을 평가하기 위해 두가지 척도를 들이댄다. 

첫째, 과녁의 중앙, 즉 β2로부터 얼마나 동떨어져있는지를 파악한다. 

둘째, 추정치의 산포도, 즉 추정치들이 얼마나 분산되어있는지를 파악한다. 

OLS estimator는 이 두가지 조건을 충족한다. 우선 E(b2)=β2로 과녁의 중앙을 가리키는 unbiased한 추정치이고, Sb2^2는 분산의 최소치다. 그러나 OLS estimator가 BLUE가 될 수 있는 가정인 동분산을 충족하지 못한다면, V(b2)는 최소 분산보다 더 커진다. 

 

이를 자세히 들여다보면 위와 같다. 

동분산인 경우 V(b2)와 E(Sb2^2)(=표본을 통해 추정한 b2의 분산의 평균값)은 같다. 

그러나 이분산의 경우, 모든 i에 대하여 동일한 분산값이 존재하지 않기 때문에 고정적인 오차의 합을 분자로 가지는 E(Sb2^2)과 V(b2)의 값이 서로 상이하다. 따라서 표준오차가 충분히 낮지 않기 때문에 LS estimator로서의 b2의 추정은 효율적이지 못하다. 이 때문에 귀무가설에 대한 t-test 또한 불가하다. 

 

대신 이 때, E(b2)=β2라는 LS estimator b2의 unbiasedness는 살아있기 때문에, 분산이 높아진 Sb2 대신 White's robust standard error를 사용함으로서 이러한 상황을 타개할 수 있다. 

 

3. Detecting Hetero-

1) Graphical method

이분산에 대처하기 위해선, 우선 이분산을 포착하는 작업부터 해야한다. 

가장 단순한 방법은 gretl에서 residual plot을 구하면 X 혹은 Yhat의 변화에 따른 잔차항제곱의 변화를 볼 수 있다.

만약 잔차항이 동분산의 성질을 갖고 있다면, X의 변화와 무관하게 잔차항이 일정한 분포를 갖고 있을테지만, 이분산의 경우엔 X의 변화에 연동되어 높은 상관성을 나타낸다. 

 

2) Goldfeld-Quandt Test

요즘은 잘 안쓰는 방법이다. 통상적으로 설명변수의 절대값이 증가함에 따라 V(y|X)가 증가하는 경향을 이용한 경우다.

a. X의 크기에 따라 표본을 순차적으로 정렬한다. 

b. 가운데 10-15% 부분, 즉 c개만큼을 제거한 뒤, 전반부, 후반부 각 (n-c)/2개씩 그룹화한다. 

c. 전반부와 후반부 그룹에 대한 OLS를 따로 구하고, F((n-c)/2,(n-c)/2)를 따르는 후반부RSS/전반부RSS=F를 검증한다.

d. 만약 F가 특정 신뢰도 아래 F-statistics보다 크면 "동분산을 가진다"는 귀무가설을 기각한다. 즉, 후반부RSS>>전반부RSS다. 만약 F가 F-statistics보다 작으면 귀무가설을 기각하지 않게되므로 동분산이다. 즉, 후반부RSS=전반부RSS이다.

 

3) Breusch-pager Test

Goldfeld 방법론보다 조금 더 general한 방법론이다. 다변수 회귀식에 대해 검증할 수 있기 때문이다. 

a. LS of y on (1, X2, ..., Xk)를 통해 잔차항을 구한다.

b. LS of 잔차제곱 on (1, Z2, ..., Zp)를 통해 결정계수를 구한다. 만약 동분산이라면 상수항을 제외한 설명변수의 회귀계수는 0이 도출될 것이다. 그렇지 않은 이분산의 경우에는 설명변수 Zi의 증가가 분산의 증가로 이어지는 결과가 도출되어 회귀계수값이 0이상으로 도출될 것이다. 따라서 해당 회귀식의 결정계수가 0에 가깝다면 귀무가설(동분산)을 유지하고, 아니라면 기각한다.  

c. 검증을 위해 카이분포를 사용한다. 이 때 nR^2이 카이분포값보다 크면, 그 결정계수가 신뢰구간을 벗어날 정도로 큰 것을 의미하기 때문에 귀무가설을 기각한다. 즉, Zi의 설명력이 큰 이분산의 경우인 것이다. 

 

4) White Test

White test는 Breusch의 개정판이다. Breusch test에선 설명변수의 선형적 변화가 분산에 미치는 영향만을 파악했으나, 비선형적(ex. 제곱, 루트 등) 변화가 분산에 영향을 가할 수도 있다. 따라서 이러한 사실을 감안해 보완해준 것이다. 

a. LS of y on (1, X, Z)한 뒤 잔차항제곱을 구한다.

b. LS of 잔차항제곱 on (1,X,Z,X^2,Z^2,XZ)을 한 뒤 결정계수를 구한다.

c. 결정계수를 카이분포값과 비교하여 귀무가설(동분산) 기각여부를 판단한다.

 

4. Estimation

1) GLS

여지껏 sample set에 이분산이 존재하는지 여부를 검증했다면, 

이제 이분산이 존재하는 경우 어떻게 LS Estimator를 사용할지 확인해보겠다. 

 

첫번째 방법은 GLS(general Least Square)이다. 이는 모분산이 알려져있음을 가정한다. 

위와 같이 회귀식에다가 모분산을 양변에 나눠준다. 그러면 변형된 잔차항 ε*=ε/σ의 분산값이 1이 되어 공분산이 된다. 

변형된 회귀식의 잔차항의 분산이 공분산이기 때문에 기존에 사용하던 OLS를 사용할 수 있게 된다. 

따라서 LS of Y* on (Z*, X*)는 OLS of (Y/σ) on (1/σ, X/σ)과 마찬가지다. 

 

LS of Y* on (Z*, X*)이 OLS의 형식을 가졌다고 해서 OLS인것은 아니다.

기존 OLS의 식에다 1/모분산 값을 가중평균해서 더한 합을 최소화한것이 WLS(GLS)인 것이다. 이 때 W는 weighted, 즉 가중한 것을 뜻한다. 위 그래프를 바라보면 yi, 즉 관측치가 (β1*-β2*Xi) 회귀식과 멀리 동떨어져있는 경우엔 error term이 엄청나게 커지기 마련이다. 그러나 이를 모분산으로 가중평균을 해준다면 해당 지점에서 분산이 매우 크기 때문에, 엄청나게 커지는 error term을 그에 맞춰서 낮출 수 있다. 

 

그러나 GLS에는 실제로 사용하기에 어려운 치명적인 문제점이 두가지가 존재한다. 

첫째, 기존 상수항 β1을 σ로 나눠주게 되면서 이를 Z로 설정했다. 그러면 LS of Y* on (Z*, X*)가 되어 상수항이 사라지기 때문에 결정계수가 항상 0과 1사이에 놓일 수 없게 된다. 

둘째, 모분산을 안다고 애초에 가정했기 때문에 모분산을 모르는 현실에서는 사용하기 어렵다. 

 

2) FGLS: feasible

FGLS는 이러한 GLS의 문제점을 보완한 발전된 버전이다. 이 때 F는 feasible, 즉 실제로 사용가능함을 뜻한다. 

우선 모분산을 모르지만 얼추 X의 증가가 분산의 증가로 이어지는 비례관계라고 가정하는 식을 설정한다. 

따라서 이를 공분산으로 만들어주기 위해선 root(Xi)값을 회귀식의 양변에 나눠주면 된다. 이전과 같이 LS of y* on (1/root(Xi), root(Xi))를 해주면 Xi가 가중평균값이 되는 WLS가 도출된다. 만약 Xi가 높으면 분산이 높을 것으로 추정되기 때문에 OLS값도 그에 맞춰 비중을 줄여주는 것이다. 

 

Xi와 분산간의 관계가 비선형일 수도 있다. 이 경우엔 이전과 같이 양변에 Xi를 나눠주면 된다. 그러면 V(ε/X)가 일정한 분산값이 나와 OLS를 할 수 있게 된다. 

 

3) White's estimator

White test와 비슷한 생각으로 만든 estimator 구하는 방법론이다.

a. LS of y on (1,X,Z)하고 잔차항을 구한다.

b. LS of 잔차제곱 on (1, X, Z, Z^2, X^2, XZ)를 구한다. 이 회귀식은 잔차제곱에 대한 추정이 된다. 

c. 이 잔차제곱을 추정한 값을 편의로 추정표준오차 기호로 표현하고, 이를 회귀식 양변에 나눠주어 동분산을 갖도록 만든다. 

<해당 부분은 공부를 조금 더 해서 내용을 따로 업로드하도록 하겠습니다>

 

4) White's Hetero-corrected standard Errors(White's Robust Standard Errors)

FGLS는 우리가 이분산의 구조에 대해 확신할 때 효율적이다. 그러나 보통 우리는 그렇지 않기 떄문에 robust한 값을 원한다. 따라서 우리는 OLS를 사용한 뒤 값을 수정하는 방식을 채택한다. 이것이 바로 White's Robust SE인 것이다. 

V(b2)가 efficient하지 않은 값이 도출되며 모분산을 알지 못하기 때문에 잔차항의 제곱을 통해 이를 추정한다. 

 

nonlinear한 형식까지 포함한 이분산 모형을 회귀분석한 뒤, 이를 V(b2)의 추정치에 대입하면 White's HAC가 된다. 

 

5. Examples

White's Test를 사용하는 예시를 확인해보자. 위와 같이 graph를 통해 이분산이 존재하는 것을 확인했으면, 이를 White-test를 통해 그 정도를 객관적으로 가늠해볼 수 있다. 

 

우선 독립변수가 GDP 하나이기 때문에 LS of 잔차제곱 on (GDP, GDP^2)를 해주면 결정계수가 0.211로 0보다 큰 유의미한 값이 도출되고, 이를 카이분포값과 비교할 경우 28*(0.211)=5.918보다 카이분포값이 작을 확률이 0.051846로 나온다. 만약 신뢰도를 99%, 95%로 설정했다면 이는 동분산이 존재하는 것으로 기각되지 않는 경우다.

 

White's HAC를 도출하는 경우를 살펴보자. 

이 경우 unbiased한 b2는 기존 OLS와 똑같이 사용하는 것이기 때문에 다를 것이 없다. 그러나 Sb2값은 기존엔 모분산이 왔으나 이 경우엔 "잔차제곱=a1+a2GDP+a3GDP^2+e"라는 회귀식을 통해 구한다. 이를 Sb2*식에 대입해주어 구하면 SE가 0.017이 나오는데 앞의 OLS Sb2값과 큰차이가 없음을 확인할 수 있다. 

*나도 자꾸 헷갈려서 메모해두는데 잔차제곱이 실제 잔차제곱이 아니다! 이분산 추정치의 notation일 뿐이다!

 

공분산을 줄이기 위한 또다른 방법은 위 식처럼 다른 회귀식 밖의 다른 설명변수를 denominator로 차용하는 것이다.

이 경우 이분산인 모분산이 인구제곱에 비례하는 특성을 가진다고 가정했고 이를 나눠줌으로써 OLS를 사용할 수 있게 되었다. 

LS estimator가 HAC와도 상당히 유사한 것을 파악할 수 있다. 

 

이번엔 중고차가격을 파악하기 위해 배기량, 기간, 에어백을 독립변수로 OLS를 돌린 결과다. 

 

이분산 존재여부를 파악하기 위해 3개의 변수에 대해 제곱, 선형결합등을 해주어 White test를 돌렸다. 

(145)*(0.4236)=61.428보다 큰 카이분포값이 있을 확률이 0%에 수렴하기 때문에 동분산이라는 귀무가설을 기각한다. 

동분산을 해결하기 위한 방법으로 HAC를 사용할 수 있다. 이 때, b2는 그대로 사용하기 때문에 변화가 없으나 Sb2는 이분산을 추정해준 값을 차용하기 때문에 다소 변화가 있다. 

 

이분산을 해결하기 위한 두번째 방법으로 FGLS가 있다. 

이는 기존 선형적 관계만을 다루던 FGLS와는 다소 다른데, white test의 형식을 일부 차용했다. 기존에 구한 잔차제곱과 nonlinear+linear+선형결합까지 모두 담고있는 회귀식을 LS돌려서 fitted value를 구한다. 이를 weight로 잡아서 써주면 사실상 분산을 직접적으로 denominate해주는 효과가 발생하기 때문에 b2, Sb2가 쓸만한 값이 도출된다. 

반응형