Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
data_analysis:shrinkage_methods [2020/04/09 06:36] – prgram | data_analysis:shrinkage_methods [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== shrinkage methods ====== | ====== shrinkage methods ====== | ||
+ | [[blog: | ||
[[https:// | [[https:// | ||
+ | |||
+ | << | ||
+ | subset selection | ||
+ | * discrete process : variables are either ratained or discarded | ||
+ | * often exhibits high variance, and so doesn' | ||
+ | Shrinkage methods are more continuous, and don't suffer as much from high variability | ||
+ | |||
constrains or regularize | constrains or regularize | ||
Line 11: | Line 19: | ||
Again speaking roughly, unbiasedness는 수많은 parameters를 추정해야 하는 때에는 unaffordable luxury가 될 수 있음 | Again speaking roughly, unbiasedness는 수많은 parameters를 추정해야 하는 때에는 unaffordable luxury가 될 수 있음 | ||
~James-Stein Estimator | ~James-Stein Estimator | ||
- | |||
=====6.2.1 Ridge Regression ===== | =====6.2.1 Ridge Regression ===== | ||
Line 66: | Line 73: | ||
정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델) | 정확히 0이됨. - sparse model(변수의 일부만 포함하는 모델) | ||
- | best subset 문제 | + | ====best subset 문제==== |
+ | minimize $ { \sum ( y_i - \beta_0 - \sum \beta_j x_{ij} )^2 } s.t. \sum I(\beta_j \neq 0 ) \leq s $ s개의 계수만이 0이 아닌 값이 될 수 있다는 제한조건. | ||
ridge : s.t. $ \sum \beta_j^2 \leq s $ | ridge : s.t. $ \sum \beta_j^2 \leq s $ | ||
lasso : s.t. $ \sum |\beta_j| \leq s $ | lasso : s.t. $ \sum |\beta_j| \leq s $ | ||
- | ( $ \lambda $ 에 대해 s가 존재 ) | + | ( $ \lambda $ 에 대해 s가 존재, 1-1 correspondence |
=> ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. | => ridge와 lasso 는 best subset의 풀기 힘든 문제를, 풀기 쉬운 문제로 대체한 계산 가능한 대안. | ||
- | {{: | + | {{: |
- | https:// | + | 그림 출처 : ESL |
+ | |||
+ | {{: | ||
+ | [[https:// | ||
변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. | 변수가 2개일 때. 오차의 등고선(동일한 RSS)과 constraint function. $ \hat{\beta} $는 LSE. | ||
+ | |||
일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 기대할 수 있음 | 일반적으로 lasso는 비교적 적은 수의 설명변수가 상당히 큰 계수를 가지고 나머지 변수들은 계수가 아주 작거나 0일 설정에서 성능이 더 나을 것이라 기대할 수 있음 | ||
Line 91: | Line 103: | ||
Cross Validation | Cross Validation | ||
+ | |||
+ | ※ elestic net penalty | ||
+ | $ \lambda \sum (\alpha \beta_j^2 + (1-\alpha)|\beta_j|) $ | ||