This is an old revision of the document!
shrinkage methods
constrains or regularize
계수 추정치들을 수축하는 것은 추정치들의 분산을 상당히 줄일 수 있는 것으로 밝혀져 있다.
«CASI»
subset selection은 discrete process → high variance & doesn't reduce the prediction error of the full model
Roughly speaking, MLE는 nearly 최소 분산을 가지는 nearly unbiased 추정치를 제공
Again speaking roughly, unbiasedness는 수많은 parameters를 추정해야 하는 때에는 unaffordable luxury가 될 수 있음
~James-Stein Estimator
6.2.1 Ridge Regression . . . . . . . . . . . . . . . . . . . . 215
shrinkage panelty는 절편 $ \beta_0 $ 에는 적용X - 수축하고자 하는 것은 반응변수에 대한 각 변수의 추정된 연관성이지, $ x_{ij} = 0 $ 일 때 단순히 평균 반응변수 값의 측또인 절편을 수축하고자 하는 것은 아님. X의 열들을 평균이 0이 되도록 중심화하면 추정된 절편은 $ \hat{\beta_0} = \bar{y} = \sum y_i/n $의 형태가 된 것.
일반적인 LSE 추정치들은 스케일에 변동X : $ cX_j $ 이면 추정치가 1/c
그러나 ridge regression에서는 스케일링에 따라 달라짐 : $ \tilde{x}_{ij} = {x_{ij}\over{\sqrt{{1\over{n}}\sum(x_{ij}-\bar{x}_{j})^2}}} $ standardize (표준편차로 나누기)
pros : bias-variace trade-off
일반적으로 반응변수와 설명변수의 상관관계가 선형에 가까운 경우 최소제곱 추정치는 낮은 bias를 가질 것이지만, 훈련 데이터의 작은 변화가 추정치를 크게 변화시킬 수 있으므로 분산은 높을수도.
2^p 개 best subset selection에 비해 계산상의 장점
cons
p개 설명변수 모두를 포함함.
6.2.2 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . 219
$ l_2 $ penalty 대신 $ l_1 $ penalty
정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델) - 해석하기 쉬움
best subset 문제 : minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건.
ridge : s.t. $ \sum \beta_j^2 \leq s $
lasso : s.t. $ \sum |\beta_j| \leq s $
( $ \lambda $ 에 대해 s가 존재 )
⇒ ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안.
https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2018/02/07/ISL-Linear-Model-Selection-and-Regularization_ch6.html
변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE.
일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것으리 기대할 수 있음
ridge는 반응변수가 많은 설명변수들의 함수이고 그 계수들이 거의 동일한 크기일 때 성능이 더 좋을 것.
Bayesian Approach
회귀에 대한 베이즈 관점은 계수 벡터 $ \beta $ 가 어떤 prior distribution $ p(\beta) $를 가진다고 가정.
likelihood : $ f(Y | X, \beta) $
posterior : $ p(\beta|X,Y) \propto f(Y|X,\beta) p(\beta|X) = f(Y|X,\beta)p(\beta) $
assume that $ p(\beta) = \prod g(\beta) $
⇒ g가 평균 0, 표준편차가 $ \lambda $ 의 함수인 Gaussian dist이면, $ \beta $ 의 posterior mode는 ridge의 해
g가 평균 0, scale parameter가 $ \lambda $ 의 함수인 double-exponential, Laplace dist 이면,$ \beta $ 의 posterior mode는 lasso의 해
6.2.3 Selecting the Tuning Parameter . . . . . . . . . . . . 227
CV
Discussion