반응형
우리는 ΣP(Y|X;theta)를 최대화하는 theta를 구해야만 한다. 이 ΣP(Y|X;theta)를 f(theta)로 설정하고, f(theta)를 theta에 대해 편미분해준 값은 ΣX(Y-P(Y=1|X;theta)로 재정의 된다. 여기까지가 logistic regression의 영역이었다.
그런데 X와 Y간의 비선형적 관계에 의해 closed form을 통한 linear regression이 불가능해 gradient method를 도입했다. ΣX(Y-P(Y=1|X;theta)가 gradient method의 u가 되기 때문에 이를 그대로 대입하면 위와 같은 식이 도출된다.
linear regression을 배울 때 우리는 estimated f와 실제 f값 간의 차이값인 error를 최소화하려고 노력했다. 그 과정에서 대수적으로 구한것이 optimized theta의 closed form인 (X^T * X)^(-1)*(X^T)*Y이었다.
그러나 linear regression을 할 때도 이 closed form을 그대로 적용하기엔 큰 무리가 있는 것이, X의 열인 feature의 길이가 지나치게 크면 (X^T * X)^(-1)를 계산할 수 없게된다. 행렬의 역함수 계산은 쉽지 않다. 따라서 우리는 이런 현실적인 어려움 때문에 gradient method를 linear regression에도 똑같이 적용한다. 적용방법은 여지껏 살펴본 것과 절차상 동일해 설명은 생략한다.
반응형
'기계학습 > ML' 카테고리의 다른 글
[ML개론] (12) error handling with loss function (0) | 2022.02.05 |
---|---|
[ML개론] (11) Support Vector Machine(SVM) (0) | 2022.02.04 |
[ML개론] (8) Gradient Method (0) | 2022.02.02 |
[ML개론] (7) Logistic Regression & sigmoid function (0) | 2022.02.01 |
[ML개론] (6) Naive Bayesian Classifier (0) | 2022.01.27 |