Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
data_analysis:shrinkage_methods [2020/04/04 14:51] – [6.2.2 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . 219] prgramdata_analysis:shrinkage_methods [2025/07/07 14:12] (current) – external edit 127.0.0.1
Line 1: Line 1:
 ====== shrinkage methods ====== ====== shrinkage methods ======
 +[[blog:easy_lasso_logistic_regression]]
 +[[https://www.stat.cmu.edu/~ryantibs/papers/bestsubset.pdf|best subset vs LASSO]]
 +
 +<<ELS>>
 +subset selection 
 +  * discrete process : variables are either ratained or discarded
 +  * often exhibits high variance, and so doesn't reduce the prediction error of the full model
 +Shrinkage methods are more continuous, and don't suffer as much from high variability
 +
  
 constrains or regularize constrains or regularize
Line 11: Line 20:
 ~James-Stein Estimator ~James-Stein Estimator
  
 +=====6.2.1 Ridge Regression =====
 +<<CASI>>
 +Ridge regression
 +standardize -> $ \beta_i $ comparable scales.
 +$ \hat{\beta}(\lambda) = ( S + \lambda I)^{-1} X' y = ( S + \lambda I)^{-1} S \hat{\beta} $, $ S = X'X, \hat{\beta} = S^{-1} X' y $ (*)
 +penaliazed least squares; penalized likelihood; maximized a-posteriori probability(MAP); regularization
 +
 +<<ESL>>
 +(*) => linear function of y
 +The solution adds a positive constant to the diagonal of $ X^TX $ before inversion.
 +=> X'X가 full rank 아니라도 problem을 nonsingular 로 만들어줌.
  
-=====6.2.1 Ridge Regression . . . . . . . . . . . . . . . . . . . . 215===== 
 shrinkage panelty는 절편 $ \beta_0 $ 에는 적용X - 수축하고자 하는 것은 반응변수에 대한 각 변수의 추정된 연관성이지, $ x_{ij} = 0 $ 일 때 단순히 평균 반응변수 값의 측또인 절편을 수축하고자 하는 것은 아님. X의 열들을 평균이 0이 되도록 중심화하면 추정된 절편은 $ \hat{\beta_0} = \bar{y} = \sum y_i/n $의 형태가 된 것. shrinkage panelty는 절편 $ \beta_0 $ 에는 적용X - 수축하고자 하는 것은 반응변수에 대한 각 변수의 추정된 연관성이지, $ x_{ij} = 0 $ 일 때 단순히 평균 반응변수 값의 측또인 절편을 수축하고자 하는 것은 아님. X의 열들을 평균이 0이 되도록 중심화하면 추정된 절편은 $ \hat{\beta_0} = \bar{y} = \sum y_i/n $의 형태가 된 것.
  
Line 18: Line 37:
 그러나 ridge regression에서는 스케일링에 따라 달라짐 : $ \tilde{x}_{ij} = {x_{ij}\over{\sqrt{{1\over{n}}\sum(x_{ij}-\bar{x}_{j})^2}}} $ standardize (표준편차로 나누기) 그러나 ridge regression에서는 스케일링에 따라 달라짐 : $ \tilde{x}_{ij} = {x_{ij}\over{\sqrt{{1\over{n}}\sum(x_{ij}-\bar{x}_{j})^2}}} $ standardize (표준편차로 나누기)
  
-pros bias-variace trade-off +===pros=== 
 +bias-variace trade-off
 일반적으로 반응변수와 설명변수의 상관관계가 선형에 가까운 경우 최소제곱 추정치는 낮은 bias를 가질 것이지만, 훈련 데이터의 작은 변화가 추정치를 크게 변화시킬 수 있으므로 분산은 높을수도. 일반적으로 반응변수와 설명변수의 상관관계가 선형에 가까운 경우 최소제곱 추정치는 낮은 bias를 가질 것이지만, 훈련 데이터의 작은 변화가 추정치를 크게 변화시킬 수 있으므로 분산은 높을수도.
  
 2^p 개 best subset selection에 비해 계산상의 장점 2^p 개 best subset selection에 비해 계산상의 장점
  
-cons+===cons===
 p개 설명변수 모두를 포함함. p개 설명변수 모두를 포함함.
  
  
-<<CASI>> +====Bayesian rationale==== 
-Ridge regression +: assume that noise $ \epsilon $ is iid Normal.
-standardize -> $ \beta_i $ comparable scales. +
-$ \hat{\beta}(\lambda) ( S + \lambda I)^{-1} X' y ( S + \lambda I)^{-1} S \hat{\beta} $, $ S X'X, \hat{\beta} S^{-1} X' y $ (*) +
-penaliazed least squares; penalized likelihood; maximized a-posteriori probability(MAP); regularization +
- +
-Bayesian rationale : assume that noise $ \epsilon $ is iid Normal.+
 $ \hat{\beta} \sim N_p(\beta, \sigma^2S^{-1} ) $ $ \hat{\beta} \sim N_p(\beta, \sigma^2S^{-1} ) $
 bayesian prior $ \beta \sim N_p (0, {\sigma^2\over\lambda}I) $ makes $ E\{\beta|\hat{\beta}\} = (S+\lambda I)^{-1}S\hat{\beta} $ bayesian prior $ \beta \sim N_p (0, {\sigma^2\over\lambda}I) $ makes $ E\{\beta|\hat{\beta}\} = (S+\lambda I)^{-1}S\hat{\beta} $
- 
-<<ESL>> 
-(*) => linear function of y 
-The solution adds a positive constant to the diagonal of $ X^TX $ before inversion. 
-=> X'X가 full rank 아니라도 problem을 nonsingular 로 만들어줌. 
  
  
-Singular Value Decomposion of the centered input matrix X : $ X = UDV^T $+====Singular Value Decomposion==== 
 +SVD of the centered input matrix X : $ X = UDV^T $
 $ X \hat{\beta}^{ls} = X(X^TX)^{-1}X^Ty = UU^Ty $, ls : least squares fitted vector $ X \hat{\beta}^{ls} = X(X^TX)^{-1}X^Ty = UU^Ty $, ls : least squares fitted vector
 => $ U^Ty $ : coordinates of y with respect to the orthonormal basis U  => $ U^Ty $ : coordinates of y with respect to the orthonormal basis U 
Line 58: Line 68:
  
  
-=====6.2.2 The Lasso . . . . . . . . . . . . . . . . . . . . . . . . 219=====+=====6.2.2 The Lasso =====
 $ l_2 $ penalty 대신 $ l_1 $ penalty => no closed form expression $ l_2 $ penalty 대신 $ l_1 $ penalty => no closed form expression
  
 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델)  - 해석하기 쉬움 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델)  - 해석하기 쉬움
  
-best subset 문제 minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건.+====best subset 문제==== 
 +minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건.
 ridge : s.t. $ \sum \beta_j^2 \leq s $ ridge : s.t. $ \sum \beta_j^2 \leq s $
 lasso : s.t. $ \sum |\beta_j| \leq s $ lasso : s.t. $ \sum |\beta_j| \leq s $
-( $ \lambda $ 에 대해 s가 존재 )+( $ \lambda $ 에 대해 s가 존재, 1-1 correspondence )
 => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안.
  
-{{:data_analysis:pasted:20200403-221625.png?300}} +{{:data_analysis:pasted:20200409-171304.png}} 
-https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2018/02/07/ISL-Linear-Model-Selection-and-Regularization_ch6.html+그림 출처 : ESL  
 + 
 +{{:data_analysis:pasted:20200403-221625.png?500}} 
 +[[https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2018/02/07/ISL-Linear-Model-Selection-and-Regularization_ch6.html|그림출처]]
 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE.
  
-일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것으리 기대할 수 있음+ 
 +일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 기대할 수 있음
 ridge는 반응변수가 많은 설명변수들의 함수이고 그 계수들이 거의 동일한 크기일 때 성능이 더 좋을 것. ridge는 반응변수가 많은 설명변수들의 함수이고 그 계수들이 거의 동일한 크기일 때 성능이 더 좋을 것.
  
  
-Bayesian Approach+==== Bayesian Approach ====
 회귀에 대한 베이즈 관점은 계수 벡터 $ \beta $ 가 어떤 prior distribution $ p(\beta) $를 가진다고 가정.  회귀에 대한 베이즈 관점은 계수 벡터 $ \beta $ 가 어떤 prior distribution $ p(\beta) $를 가진다고 가정. 
 likelihood : $ f(Y | X, \beta) $ likelihood : $ f(Y | X, \beta) $
Line 85: Line 100:
 g가 평균 0, scale parameter가 $ \lambda $ 의 함수인 double-exponential, Laplace dist 이면,$ \beta $ 의 posterior mode는 lasso의 해  g가 평균 0, scale parameter가 $ \lambda $ 의 함수인 double-exponential, Laplace dist 이면,$ \beta $ 의 posterior mode는 lasso의 해 
  
-6.2.3 Selecting the Tuning Parameter . . . . . . . . . . . . 227 +=====6.2.3 Selecting the Tuning Parameter ===== 
-CV+Cross Validation 
  
 +※ elestic net penalty
 +$ \lambda \sum (\alpha \beta_j^2 + (1-\alpha)|\beta_j|) $
  
  
  • data_analysis/shrinkage_methods.1586011892.txt.gz
  • Last modified: 2025/07/07 14:12
  • (external edit)