data_analysis:shrinkage_methods

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
data_analysis:shrinkage_methods [2020/04/09 06:36] prgramdata_analysis:shrinkage_methods [2025/07/07 14:12] (current) – external edit 127.0.0.1
Line 1: Line 1:
 ====== shrinkage methods ====== ====== shrinkage methods ======
 +[[blog:easy_lasso_logistic_regression]]
 [[https://www.stat.cmu.edu/~ryantibs/papers/bestsubset.pdf|best subset vs LASSO]] [[https://www.stat.cmu.edu/~ryantibs/papers/bestsubset.pdf|best subset vs LASSO]]
 +
 +<<ELS>>
 +subset selection 
 +  * discrete process : variables are either ratained or discarded
 +  * often exhibits high variance, and so doesn't reduce the prediction error of the full model
 +Shrinkage methods are more continuous, and don't suffer as much from high variability
 +
  
 constrains or regularize constrains or regularize
Line 11: Line 19:
 Again speaking roughly, unbiasedness는 수많은 parameters를 추정해야 하는 때에는 unaffordable luxury가 될 수 있음 Again speaking roughly, unbiasedness는 수많은 parameters를 추정해야 하는 때에는 unaffordable luxury가 될 수 있음
 ~James-Stein Estimator ~James-Stein Estimator
- 
  
 =====6.2.1 Ridge Regression ===== =====6.2.1 Ridge Regression =====
Line 66: Line 73:
 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델)  - 해석하기 쉬움 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델)  - 해석하기 쉬움
  
-best subset 문제 minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건.+====best subset 문제==== 
 +minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건.
 ridge : s.t. $ \sum \beta_j^2 \leq s $ ridge : s.t. $ \sum \beta_j^2 \leq s $
 lasso : s.t. $ \sum |\beta_j| \leq s $ lasso : s.t. $ \sum |\beta_j| \leq s $
-( $ \lambda $ 에 대해 s가 존재 )+( $ \lambda $ 에 대해 s가 존재, 1-1 correspondence )
 => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안.
  
-{{:data_analysis:pasted:20200403-221625.png?300}} +{{:data_analysis:pasted:20200409-171304.png}} 
-https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2018/02/07/ISL-Linear-Model-Selection-and-Regularization_ch6.html+그림 출처 : ESL  
 + 
 +{{:data_analysis:pasted:20200403-221625.png?500}} 
 +[[https://godongyoung.github.io/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2018/02/07/ISL-Linear-Model-Selection-and-Regularization_ch6.html|그림출처]]
 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE.
 +
  
 일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 기대할 수 있음 일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 기대할 수 있음
Line 91: Line 103:
 Cross Validation Cross Validation
  
 +
 +※ elestic net penalty
 +$ \lambda \sum (\alpha \beta_j^2 + (1-\alpha)|\beta_j|) $
  
  
  • data_analysis/shrinkage_methods.1586414160.txt.gz
  • Last modified: 2025/07/07 14:12
  • (external edit)