본문 바로가기
  • Fearless
계량경제학/계량경제학

[계량경제학] 7. multiple regression model

by Albatross 2021. 12. 8.
반응형

1. Model & Assumptions

 

2. Interprtation of β

회귀분석식에서 회귀계수(coef of regression), β는 다음과 같이 해석된다. 

1) direct effect

β 그 자체는 다른 독립변수의 변화량이 0일 때, 오직 해당 독립변수의 변화량이 종속변수의 변화량에 미치는 영향력을 나타낸다. 이는 종속변수에 대한 특정 독립변수의 편미분을 통해 도출할 수 있다. 

2) indirect effect

그러나 세상은 복잡계인지라 특정 독립변수의 변화량이 종속변수의 변화량으로 직결되지만은 않는다. 즉, 다시말해 특정 독립변수의 변화가 다른 독립변수의 변화로 이어지게 되고, 이 다른 독립변수의 변화가 종속변수의 변화로 이어지는 간접적인 영향력 또한 존재한다는 것이다. 

따라서 특정 독립변수 X가 종속변수 Y에 미치는 영향력을 도출해내기 위해선, partial derivatives를 통해 direct effect를 구하고 total derivatives를 통해 indirect effect를 구해야한다. 이 때 indirect effect는 X의 변화가 얼만큼의 Z의 변화로 이어지는지를 나타내는 slope coef, 그리고 Z의 변화가 얼만큼의 Y의 변화로 이어지는지를 나타내는 회귀계수값을 곱한 값이다. 

3) total effect = direct effect + indirect effect

이를 구체화하면 상기한 그림과 같다. 

LS of y on (1, X)인 regression model(1)에서는 설명변수가 X만 존재하기 때문에 회귀계수 a2가 total effect가 된다. 

우리는 LS of y on (1,X,Z)인 regresssion model(2)를 통해 direct effect와 indirect effect를 구분하여 total effect의 구성인자를 확인할 수 있다. 

 

이를 수식으로 증명하는 과정은 아래에 표기된 것과 같다. 

a2는 우선 Sxy/Sx^2의 형태를 가진 회귀계수다. 모형의 구성은 다르지만 y가 같다는 점에서 regression model(2)의 식을 대입하면, a2=b2+b3d2의 total derivatives 식이 도출된다. 

 

예시를 통해 살펴보자. 위 예시는 선수의 출전경기수(Game)만으로 선수의 연봉(Money)에 대해 회귀식을 돌린 모형1과, 출전경기수와 승리수(Win)에 대해 회귀식을 돌린 모형2다. 이 때 우리는 Game의 total effect가 a2인 139.523인 것을 알 수 있으며, 이를 breakdown했을 때 direct effect인 55.216와 indirect effect 1243.64*(∂WIN/∂GAME)의 합으로 구성됨을 확인할 수 있다. 종속변수 WIN에 대해 설명변수 GAME을 회귀분석할 때 (∂WIN/∂GAME)는 0.0677이 도출되기 때문에, 이를 곱하여 indirect effect와 direct effet를 합한 값은 total effect 139.523과 유사함을 확인할 수 있다. 

 

4) alternatives to get indirect effect 

(1) LS of money on (1, Game), get residual ea

: Money와 Game간의 회귀식의 잔차항을 ea로 저장한다. 이는 Money의 변화량 중 Game의 영향을 제거한 부분이다. 

(2) LS of Win on (1, Game), get residual eb

: Win과 Game간의 회귀식을 구한 후, 잔차항을 eb로 저장한다. 이는 Win의 변화량 중 Game의 영향을 제거한 것이다. 

(3) LS of ea on (1, eb)

: ea를 종속변수로, eb를 설명변수로 설정한다. 이 회귀식의 회귀계수가 Z->Y값과 같음을 알 수 있다. 

사실 이 부분이 직관적 이해가 쉽지 않다. 그러나 수식 그 자체를 받아들이면 쉽게 와닿는다. ea는 결국 direct effect를 제외한 indirect effect를 가리킨다. 따라서 Game의 변화량이 0일 때의 Y변화량을 뜻하는 것이다. eb는 Game의 변화량이 0일 때의 Z변화량을 뜻한다. 따라서 각각이 기존 β3의 분자 분모와 대응된다. 

 

3. adjusted R

multiple regression model의 성능을 검증할 때 결정계수를 사용하면 치명적인 결함이 발생한다. 설명변수의 설명력이 높든 적든간에 설명변수의 수가 늘어나면 결정계수는 1에 가까워진다는 것이다. 따라서 무의미한 설명변수의 증가를 막기 위해 그 개수에 대한 페널티를 부여한다. 이를 수정된 결정계수라고 부른다.

이 때 SSE의 자유도는 주어진 b1*, b2*, b3*에 의해 감소되니 (n-k)의 df를 갖고, 분모의 SST는 주어진 Y bar에 의해 자유도가 1만큼 감소되어 (n-1)의 df를 갖는다. 이를 정리한 식은 우측의 식과 같다. 

 

 

4. Testing LS estimator

multiple regression model을 sample을 통해 estimate했다면, 도출한 LS estimator에 대한 검증 또한 필요하다. 

이 때 두가지 검증법이 사용된다. 첫째는 개별 coef에 대한 검증이고, 두번째는 전체 모형에 대한 검증이다. 

1) Testing for single coef

하나의 LS estimator에 대해 검증하는 과정은 기존 검증법과 별다를 것이 없다. 

아래 gretl 표를 통해 확인할 수 있듯이, bj와 Sbj를 t-ratio 수식에 대입하면 되며, 사실 이마저도 t-ratio와 p-value가 자동으로 계산되어 출력된다. 위 예시의 경우 GAME 설명변수의 bj의 p-value가 0.279로 그 설명력이 한참 부족함을 알 수 있다. 이 때 β2=0, 즉 GAME의 Money에 대한 설명력이 없다는 귀무가설은 기각되지 않는다. 

 

2) Testing Overall Significance(모형의 적합도 검정)

모형 전체에 대한 적합도 검정은 단순히 개별 coef를 순차적으로 해보면 되는 것이 아니다. 

위와 같이 단순히 b2, b3가 β2, β3의 95% 신뢰구간 내 속한다고 하더라도, 신뢰영역 내에 속하지 않는 경우가 많다. 

 

따라서 이 경우 우리는 모형의 적합도 검정을 하기 위해 모든 paramteter가 동시에 0이라는 귀무가설을 설정한다.

만약 β 중 하나라도 0이 아니라는 결론이 도출되면 가설은 기각되며, 모형의 적합도는 있는 것으로 간주한다.

 

이 때 검증을 위한 방법으로 H0의 경우와 H1의 경우를 양분하여 그들의 잔차항을 구하는 것이 있다. 

만약 귀무가설이 옳다면 β들은 모두 무의미한 값이 되기 때문에 상수항과 잔차항을 제외한 나머지 항은 제거되는 것이 옳다. 그런 회귀식의 SRF를 구하고, SRF의 잔차항을 제곱한 SSR을 구해준다. 이를 우리는 retricted model 하의 SSR, 즉 SSR^r로 명명한다. 

만약 귀무가설을 기각한다면 β값 중 일부는 유의미한 결과를 가질 것이다. 따라서 기존 모형을 그대로 차용하여 SRF를 구성하고 이에 대한 SSR을 구한다. 이를 우리는 general, unrestricted model 하의 SSR, 즉 SSR^u로 명명한다. 

직관적으로 봤을 때 설명변수의 갯수가 적기 때문에 항상 SSRr>SSRu일 수 밖에 없다. 그러나 만약 귀무가설이 틀린 경우라면 SSRr이 SSRu보다 압도적으로 커질 것이다. 

 

SSRr과 SSRu를 비교하기 위해 F분포를 사용한다.

F분포는 카이분포를 따르는 W1, W2에 대해, 둘이 독립적인 경우 나타나는 분포다. 

만약 SSRr과 SSRu간의 차이가 유의미하게 벌어진다면, 즉 설명변수가 있을때가 없을때보다 잔차항이 유의미하게 작다면 분자가 커져 F-ratio가 검증값F보다 커지게 된다. 이 경우 모형이 부적합하다는 귀무가설을 기각할 수 있게 된다 .

 

사실 잔차항을 구하는 것은 매우 복잡한 일이기 때문에 이를 식조작을 통해 간략하게 바꿔줄 수 있다. 

TSS=ESS+RSS인데 귀무가설을 수용한 잔차항 RSSr의 경우, 설명변수가 없기 때문에 ESS가 0이며, 따라서 TSS=RSS다. 다라서 TSS로 RSSu를 나눠주면 1이 된다. 

이를 고려하여 분자와 분모에 TSS를 나눠주면 결정계수로 F를 표현할 수 있다. 만약 결정계수가 0에 근사한다면 귀무가설은 유지되며 결정계수가 유의미하게 0에서 멀어진다면 귀무가설은 기각된다. 

 

사실 결정계수를 구해 F를 도출하는 것이 더욱 간편하기 때문에 이를 더 많이 쓴다. 

아래의 간단한 예시를 통해 과정을 복습해보자. 

 

모형적합도를 검증하기 위한 귀무가설이 존재한다고 가정하자. 이 때 우리는 결정계수를 통해 F를 도출한 뒤, 이를 특정 신뢰도 아래 F값과 비교함으로서 가설을 검증할 수 있다.

우선 가설이 그르다는 가정 하에 LS of Money on (1, Win, Game)을 한 경우의 통계량이다. 이 경우 결정계수가 0.273이 도출되며, 이를 기존 F식에 대입하면 21.029가 도출된다. 물론 gretl 프로그램의 결과로 F값이 같이 출력되긴 한다. 

이 F값의 p-value는 1.76*10^(-8)로, 극히 작은 값이 도출됨을 알 수 있다. 따라서 이 경우 해당 모형의 신뢰도를 99%로 설정해도 귀무가설은 기각된다. 따라서 모형이 부적합하다는 귀무가설은 기각된다. 

 

만약 k=2, 즉 LS of y on (1, X)인 single regression model의 경우는 어떨까? 

이 경우 F통계치가 t-ratio의 제곱이 되어, F분포 하의 검정과 t분포 하의 검정이 서로 기실 동일한 것이 된다. 

 

t-ratio가 (bj/Sbj)이니 6.388이 도출되고, 이를 제곱한 값이 F통계치 40.808인 것이다. 

 

3) Testing part of β's

회귀계수 전체를 test하는 모형적합도 검사 이외에도 그 부분을 검사하는 방법 또한 존재한다. 

예를들어 귀무가설이 β2=β3=...=βj+1=0이라고 가정하자. 그러면 Restricted model에선 βj+2부터 βk까지의 설명변수를 포함한 모형이 True model이라고 가정한 것이다. 이전과 똑같이 SSRr을 구해주자.

그리고 귀무가설이 기각되는 경우를 가정한 General model은 β2부터 βk까지 모든 설명변수를 포함한 것이 True model이라고 가정한다. 이전과 똑같이 SRF를 구해주고 SSRu를 얻는다. 

 

이전과 동일한 작업을 거쳐주면 된다. 그러나 이 경우 SSRr은 모형적합도 검사와는 다르게 그 자체가 SST가 아니기 때문에 (R*)^2로 표현된다. 만약 R이 R*보다 유의미하게 크다면, 따라서 F값이 critical point를 넘기게 된다면, 설명변수를 제외하지 않은 모형의 설명력이 높다는 것을 뜻하기에 귀무가설을 기각하면 되는 것이다. 

 

기존에는 모든 것을 포함한, 즉 귀무가설이 기각된 경우의 True model만 회귀식 돌리면 결정계수 구해서 풀 수 있었다. 

그러나 이번엔 다소 귀찮은 것이 서로 다른 결정계수를 구하기 위해 회귀식을 두번 돌려야한다. 좌측 회귀식의 SSR이 SSRr이고, 우측이 SSRu이다. 이 둘간의 격차를 통해 F를 구해도 되지만, 결정계수가 다 주어져있기 때문에 이를 활용해 F를 도출하면 된다. 이 경우 F가 0.09로 매우 작기 때문에 실제로 FOUR과 YEAR은 Money에 미치는 영향력이 적음을 알 수 있다. 따라서 귀무가설은 기각되지 않는다. 

 

4) Testing Linear Restrictions

회귀계수간의 선형관계를 파악하기 위해 검증을 하기도 한다. 이는 보통 노동과 자본간의 반비례적 선형관계가 존재하는지를 판단하는 상황에서 사용된다. 

 

절차는 이전과 비슷하나, J가 parameter의 수가 아닌 선형관계에 놓인 restriction의 수를 나타낸다는 점이 다르다. 

그리고 SSRr를 구하는 과정에 있어 LS of y이 아닌, LS of (y-X2)를 구하는 것이 다르다. 

이 때문에 기존 결정계수를 통해 F를 구하는 과정은 불가하다. 결정계수를 비교하기 위해선 종속변수가 서로 동일해야하는데, SSRr의 종속변수는 (y-X2)인 반면, SSRu는 y이기 때문이다. 따라서 철저히 잔차항을 통해서만 F를 구해줘야한다.

 

상술한 바와 같이, 결정계수가 아닌 잔차항을 통해서 비교해준다. 이 때 제약조건이 한개 뿐이기 때문에 J=1이며, β2와 β3가 선형관계에 놓여있다 하더라도 independent variable이기 때문에 k=6이다. 

이 경우 gretl에서 회귀식을 돌릴 때 TWINSAVE라는 변수를 새로 지정해 주었는데, β2=2β3이기 때문에 TWINSAVE=2WIN+SAVE 변수를 나타낸 것이다. 여튼 F가 0.72로 95%의 신뢰도 하의 F값 3.92에 한참 못미치기 때문에 기각하지 않는다. 즉, WIN과 SAVE의 회귀계수 사이에는 공선성이 존재하며, 이를 해석하면 투수의 승수가 세이브보다 연봉에 미치는 영향이 더 크다는 것이다. 즉 선발투수가 마무리투수보다 동일한 활약 하에 연봉이 높음을 뜻한다. 

 

5) Testing Structural Changes(Chow Test)

chow test는 구조적 변화를 알아보기 위해 진행한다. 예를 들어 2차대전 전후를 대조하여 소비함수의 변화가 일어났는지를 확인해보는 것이 있다. 

n개의 데이터를 특정시점을 기준으로 전반부 n1개, 후반부 n2개로 양분한다. 

귀무가설은 구조적 변화가 발생하지 않았다, 즉 상수항과 회귀계수항은 서로 같다는 것을 가정한다. 

 

귀무가설이 전반부, 후반부간 차이가 없다는 것이니 LS of y on (1, X) with n으로 SSR*을 구해주면 된다. 

귀무가설을 기각하는 general model은 LS of y on (1, X) with n1을 해주어 SSR1을, LS of y on (1, X) with n2를 해주어 SSR2를 도출한다. 전반부의 df는 n1-k, 후반부의 df는 n2-k이다. 

만약 귀무가설이 옳다면 여전히 회귀계수 수가 general model이 더 많아 SSR*>SSR1+SSR2일테지만 그 차이는 적을 것이고, 귀무가설이 기각된다면 SSR*>>>SSR1+SSR2로 그 차이가 상당할 것이다. 

 

SSR1+SSR2가 SSRu와 마찬가지기 때문에 이전과 같이 대입해주면 된다. 단, 분자의 df는 (n-k)-(n1-k)-(n2-k)로 k이며, 분모의 df는 (n1-k+n2-k)로 n-2k다. 

반응형