Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
data_analysis:shrinkage_methods [2020/04/04 14:24] – [shrinkage methods] prgram | data_analysis:shrinkage_methods [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== shrinkage methods ====== | ====== shrinkage methods ====== | ||
+ | [[blog: | ||
+ | [[https:// | ||
+ | |||
+ | << | ||
+ | subset selection | ||
+ | * discrete process : variables are either ratained or discarded | ||
+ | * often exhibits high variance, and so doesn' | ||
+ | Shrinkage methods are more continuous, and don't suffer as much from high variability | ||
+ | |||
constrains or regularize | constrains or regularize | ||
Line 11: | Line 20: | ||
~James-Stein Estimator | ~James-Stein Estimator | ||
+ | =====6.2.1 Ridge Regression ===== | ||
+ | << | ||
Ridge regression | Ridge regression | ||
standardize -> $ \beta_i $ comparable scales. | standardize -> $ \beta_i $ comparable scales. | ||
- | $ \hat{\beta}(\lambda) = ( S + \lambda I)^{-1} X' y = ( S + \lambda I)^{-1} S \hat{\beta} $, $ S = X'X, \hat{\beta} = S^{-1} X' y $ | + | $ \hat{\beta}(\lambda) = ( S + \lambda I)^{-1} X' y = ( S + \lambda I)^{-1} S \hat{\beta} $, $ S = X'X, \hat{\beta} = S^{-1} X' y $ (*) |
+ | penaliazed least squares; penalized likelihood; maximized a-posteriori probability(MAP); | ||
- | => linear function of y | + | << |
- | The solution adds a positive constant to the diagonal of X' | + | (*) => linear function of y |
+ | The solution adds a positive constant to the diagonal of $ X^TX $ before inversion. | ||
=> X'X가 full rank 아니라도 problem을 nonsingular 로 만들어줌. | => X'X가 full rank 아니라도 problem을 nonsingular 로 만들어줌. | ||
- | Bayesian rationale : assume that noise $ \epsilon $ is iid Normal. | ||
- | $ \hat{\beta} \sim N_p(\beta, \sigma^2S^{-1} ) $ | ||
- | bayesian prior $ \beta \sim N_p (0, {\sigma^2\over\lambda}I) $ makes $ E\{\beta|\hat{\beta}\} = (S+\lambda I)^{-1}S\hat{\beta} $ | ||
- | |||
- | penaliazed least squares; penalized likelihood; maximized a-posteriori probability(MAP); | ||
- | |||
- | |||
- | =====6.2.1 Ridge Regression . . . . . . . . . . . . . . . . . . . . 215===== | ||
shrinkage panelty는 절편 $ \beta_0 $ 에는 적용X - 수축하고자 하는 것은 반응변수에 대한 각 변수의 추정된 연관성이지, | shrinkage panelty는 절편 $ \beta_0 $ 에는 적용X - 수축하고자 하는 것은 반응변수에 대한 각 변수의 추정된 연관성이지, | ||
Line 32: | Line 37: | ||
그러나 ridge regression에서는 스케일링에 따라 달라짐 : $ \tilde{x}_{ij} = {x_{ij}\over{\sqrt{{1\over{n}}\sum(x_{ij}-\bar{x}_{j})^2}}} $ standardize (표준편차로 나누기) | 그러나 ridge regression에서는 스케일링에 따라 달라짐 : $ \tilde{x}_{ij} = {x_{ij}\over{\sqrt{{1\over{n}}\sum(x_{ij}-\bar{x}_{j})^2}}} $ standardize (표준편차로 나누기) | ||
- | pros : bias-variace trade-off | + | ===pros=== |
+ | bias-variace trade-off | ||
일반적으로 반응변수와 설명변수의 상관관계가 선형에 가까운 경우 최소제곱 추정치는 낮은 bias를 가질 것이지만, | 일반적으로 반응변수와 설명변수의 상관관계가 선형에 가까운 경우 최소제곱 추정치는 낮은 bias를 가질 것이지만, | ||
2^p 개 best subset selection에 비해 계산상의 장점 | 2^p 개 best subset selection에 비해 계산상의 장점 | ||
- | cons | + | ===cons=== |
p개 설명변수 모두를 포함함. | p개 설명변수 모두를 포함함. | ||
- | =====6.2.2 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . 219===== | + | |
- | $ l_2 $ penalty 대신 $ l_1 $ penalty | + | ====Bayesian rationale==== |
+ | : assume that noise $ \epsilon $ is iid Normal. | ||
+ | $ \hat{\beta} \sim N_p(\beta, \sigma^2S^{-1} ) $ | ||
+ | bayesian prior $ \beta \sim N_p (0, {\sigma^2\over\lambda}I) $ makes $ E\{\beta|\hat{\beta}\} = (S+\lambda I)^{-1}S\hat{\beta} $ | ||
+ | |||
+ | |||
+ | ====Singular Value Decomposion==== | ||
+ | SVD of the centered input matrix X : $ X = UDV^T $ | ||
+ | $ X \hat{\beta}^{ls} = X(X^TX)^{-1}X^Ty = UU^Ty $, ls : least squares fitted vector | ||
+ | => $ U^Ty $ : coordinates of y with respect to the orthonormal basis U | ||
+ | $ X \hat{\beta}^{ridge} = X(X^TX+\lambda I)^{-1} X^Ty = UD(D^2+\lambda I)^{-1}DU^Ty = \sum^p u_j {d_j^2 \over d_j^2+\lambda} u_j^Ty $ | ||
+ | => $ {d_j^2 \over d_j^2+\lambda} \leq 1 $ => shrink | ||
+ | small value of $ d_j^2 $ : X의 columns space direction 분산이 적다는 뜻 -> 이 방향을 ' | ||
+ | (the SVD of the centered matrix X is another way of expressing the principal components of the variables in X | ||
+ | sample covariance matrix $ S = X^TX/N $ -> $ X^TX = VD^2V^T $ -> $ Var(z_1) = Var(Xv_1) = d_1^2/N $($z_1=Xv_1=u_1d_1 $, z_1 : 1st principal component) | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | =====6.2.2 The Lasso ===== | ||
+ | $ l_2 $ penalty 대신 $ l_1 $ penalty | ||
정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델) | 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델) | ||
- | best subset 문제 | + | ====best subset 문제==== |
+ | minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건. | ||
ridge : s.t. $ \sum \beta_j^2 \leq s $ | ridge : s.t. $ \sum \beta_j^2 \leq s $ | ||
lasso : s.t. $ \sum |\beta_j| \leq s $ | lasso : s.t. $ \sum |\beta_j| \leq s $ | ||
- | ( $ \lambda $ 에 대해 s가 존재 ) | + | ( $ \lambda $ 에 대해 s가 존재, 1-1 correspondence |
=> ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. | => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. | ||
- | {{: | + | {{: |
- | https:// | + | 그림 출처 : ESL |
+ | |||
+ | {{: | ||
+ | [[https:// | ||
변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. | 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. | ||
- | 일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것으리 | + | |
+ | 일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 | ||
ridge는 반응변수가 많은 설명변수들의 함수이고 그 계수들이 거의 동일한 크기일 때 성능이 더 좋을 것. | ridge는 반응변수가 많은 설명변수들의 함수이고 그 계수들이 거의 동일한 크기일 때 성능이 더 좋을 것. | ||
- | Bayesian Approach | + | ==== Bayesian Approach |
회귀에 대한 베이즈 관점은 계수 벡터 $ \beta $ 가 어떤 prior distribution $ p(\beta) $를 가진다고 가정. | 회귀에 대한 베이즈 관점은 계수 벡터 $ \beta $ 가 어떤 prior distribution $ p(\beta) $를 가진다고 가정. | ||
likelihood : $ f(Y | X, \beta) $ | likelihood : $ f(Y | X, \beta) $ | ||
Line 68: | Line 100: | ||
g가 평균 0, scale parameter가 $ \lambda $ 의 함수인 double-exponential, | g가 평균 0, scale parameter가 $ \lambda $ 의 함수인 double-exponential, | ||
- | 6.2.3 Selecting the Tuning Parameter | + | =====6.2.3 Selecting the Tuning Parameter |
- | CV | + | Cross Validation |
+ | ※ elestic net penalty | ||
+ | $ \lambda \sum (\alpha \beta_j^2 + (1-\alpha)|\beta_j|) $ | ||