계량경제학6 [계량경제학] 12. autocorrelation 1. sources, Nature of Autocorrelation 1) Inertia 자기상관이란 주로 시계열데이터에서 많이 관측되는 특성이다. 예를 들어, GDP, 수출입지표, 고용지표 등 이전 관측자료가 다음 관측치에 큰 영향력을 행사하는 데이터에서 많이 발견된다. 간단히 생각해보면 98년도 외환위기가 이후 수십년간 한국경제에 큰 영향을 미쳤기 때문에 해당년도의 변화가 계속 영향력을 행사한다. 이 경우 t시기의 error term과 s시기의 error term간에 공분산이 0이 아니게 되어 여지껏 살펴봤던 Gauss-Markov Thm의 핵심가정이 흔들리게 된다. 이렇게 되면 자연스레 t-test 등 여지껏 해왔던 것들을 할 수 없게 된다. 2) Specification bias: excluded .. 2021. 12. 14. [계량경제학] 11. Heteroscedasticity 1. Homoscedasticity vs Heteroscedasticity Homoscedasticity는 regression model의 핵심적인 assumption이다. 특정 관측치를 회귀식에 대입했을 때 발생하는 오차 ε가 모든 관측치에 대해서 동일할 때, 회귀식의 오차가 동분산을 갖는다고 표현한다. 그러나 현실에서 동분산이 나타나기란 매우 어렵다. 단적인 예로, 설명변수 GDP가 종속변수 제조업 매출액을 예측하는 회귀식이 있다고 가정하자. 이 때 GDP가 낮으면 제조업 매출액이 회귀식에서 크게 벗어나지 않는다. 즉, 회귀식의 오차가 작다. 그러나 GDP가 매우 큰 특정 국가에서는 제조업 매출액이 회귀식에 의한 예측값과 크게 차이나는 것을 확인할 수 있다. 만약 동분산이 현실에서도 적용되었다면 GD.. 2021. 12. 9. [계량경제학] 9. multiocollinearity 1. Nature of multicollinearity 다중공선성에는 두가지 종류가 있다. 첫째, 두 변수가 완벽한 선형관계에 놓이는 완전공선성, 두번째는 완벽하진 않지만 상관성이 매우 높은 다중공선성이 그것이다. Ch.8에서 보았듯이 X변수가 모형 내에 존재하는 상황에서 Z변수를 넣는 경우, 1종오류를 범할 가능성이 있다. 만약 1종오류를 범했다면 X와 Z간의 상관계수에 따라 LS estimator의 분산이 위 식대로 도출된다. X와 Z의 상관성이 매우 높은, 즉 다중공선성이 존재하는 상황이라면 b2는 E(b2)=β2라서 과녁의 중앙에 존재하지만, V(b2)가 Z변수를 포함하지 않은 경우의 분산인 V(b2*)보다 커지게 되어 산발적으로 존재하는 모습이 된다. 이 경우 LS estimator b2는 BL.. 2021. 12. 8. [계량경제학] 10. Dummy Variable Model 1. Motivation dummy variable을 사용하는 동기는 명확하다. 키와 몸무게처럼 정량적 지표로 표기할 수 있는 데이터는 문제가 회귀분석을 할 때 문제가 되지 않는다. 그러나 성별 혹은 인종과 같은 정성적 지표는 dummy variable이라는 정량화 변수를 거쳐야만 한다. 아래 표기한 예시와 같이 남녀간 임금격차를 회귀분석을 통해 확인할 때 dummy variable이 사용된다. LS of y on (1, X)인 regression model이 있다. 이 때 X는 연차, Y는 임금을 나타낸다. 따라서 자연스레 상수는 초봉이 되고, 연차 앞의 회귀계수는 임금상승률이 된다. 남녀간 모형의 구조는 똑같고 데이터가 나눠져있을 때 이를 비교하기 위해선 하나의 모형으로 합쳐야할 필요가 있다. 2. .. 2021. 12. 8. [계량경제학] 8. model specifications 앞서 Ch.7에서 하나의 설명변수로 종속변수를 설명하는 simple regression에서 벗어나 2개 이상의 설명변수를 활용하는 multiple regression model을 살펴봤다. Ch.8에서는 multiple regression의 함정을 살펴 이를 보완할 방법을 공부한다. 모형을 정교화할 때 살펴봐야할 사안들은 다음과 같다. 첫째, 종속변수를 설명함에 있어 특정 독립변수를 삽입하는 것과 방출하는 것 중 어느 것이 효과적인가? 둘째, 종속변수를 설명함에 있어 특정 독립변수의 형태는 선형이 효과적인가, 비선형(log, 제곱 등)이 효과적인가? 셋째, 데이터를 측정하는 과정에 있어서 오차가 발생하진 않았는가? 넷째, 표본의 분포가 정규성을 따른다는 가정이 그릇되진 않았는가? 다섯째, 설명변수와 잔차.. 2021. 12. 8. [계량경제학] 7. multiple regression model 1. Model & Assumptions 2. Interprtation of β 회귀분석식에서 회귀계수(coef of regression), β는 다음과 같이 해석된다. 1) direct effect β 그 자체는 다른 독립변수의 변화량이 0일 때, 오직 해당 독립변수의 변화량이 종속변수의 변화량에 미치는 영향력을 나타낸다. 이는 종속변수에 대한 특정 독립변수의 편미분을 통해 도출할 수 있다. 2) indirect effect 그러나 세상은 복잡계인지라 특정 독립변수의 변화량이 종속변수의 변화량으로 직결되지만은 않는다. 즉, 다시말해 특정 독립변수의 변화가 다른 독립변수의 변화로 이어지게 되고, 이 다른 독립변수의 변화가 종속변수의 변화로 이어지는 간접적인 영향력 또한 존재한다는 것이다. 따라서 특정 독.. 2021. 12. 8. 이전 1 다음 반응형