Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
data_analysis:statistics_and_machine_learning [2023/02/22 14:56]
prgram [통계학 도감]
data_analysis:statistics_and_machine_learning [2023/11/28 11:15] (current)
prgram [Feature]
Line 53: Line 53:
   * Random forest can detect non-linear relationship very well so selecting variables via Information Value and using them in random forest model might not produce the most accurate and robust predictive model.   * Random forest can detect non-linear relationship very well so selecting variables via Information Value and using them in random forest model might not produce the most accurate and robust predictive model.
  
 +
 +== 비교 ==
 +[[https://​ifs.or.kr/​bbs/​board.php?​bo_table=research&​wr_id=10757|IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf]]
 +종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택
 +- Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움
 +- 11개의 독립변수 중 1개를 제외한 10개의 변수가 통계적으로 유의한 상황에서 디지털 전환 촉진 주요 요인이 되기 위한 상관계수 절대값 기준을 세우기 힘듦 (연구자의 자의적 판단 필요)
 +- 요인(독립변수) 간 단위가 상이하여 상관계수값으로 요인 간 상대적 중요도를 비교하기에는 적절치 않음
 +
 +이항 로지스틱 회귀분석을 통해 디지털 전환 촉진 요인 간 상대적 중요도 비교는 가능하나,​ 주요 요인 한정(限定)은 어려움
 +- 이항 로지스틱 회귀분석 결과인 표준화된 회귀계수 절대값을 이용하여 요인(독립변수) 간 상대적 중요도 비교는 가능
 +- 그러나, 주요 요인을 한정하기 위한 표준화된 회귀계수 절대값의 기준 설정이 어려워 연구자의 자의적 판단 필요
 +
 +랜덤포레스트 알고리즘을 통해 주요 요인 간 상대적 중요도 비교는 어느 정도 가능하나,​ 선정된 요인의 디지털 전환 정(+) 또는 부(-) 영향구분 및 주요 요인 한정(限定)은 어려움
 +- 랜덤포레스트 알고리즘 수행 결과인 요인(독립변수)별 MDA 값을 이용하여 요인 간 상대적 중요도 비교 가능
 +- 그러나, 랜덤포레스트 알고리즘 수행 시마다 MDA 값이 변하기 때문에 요인 간 상대적 중요도에 차이가 발생하고 상대적 중요도 순위가 바뀔 수 있음 (fluctuation 특성)
 +- 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향인지 MDA값만으로 구분하기 어려움
 +- 또한, 주요 요인을 한정하기 위한 MDA 기준 설정이 어려워 연구자의 자의적 판단 필요
 +
 +보루타 알고리즘은 랜덤포레스트를 래핑(wrapping)한 방식으로,​ 랜덤포레스트와 달리 판별 모형 생성에 영향을 주지 못하는 변수를 제외시키고 통계 기법을 통해 주요 요인의 상대적 중요도 확정
 +- 보루타 알고리즘은 Shadow feature를 추가하여 판별 모형 생성 시 영향을 주는 주요 요인 변수와 영향을 주지 않는 변수 구분
 +- 기존 랜덤포레스트 알고리즘의 fluctuation 한계를 극복하기 위해 보루타 알고리즘은 통계적인 방법(z-score)을 사용하여 독립변수별 상대적 중요도 확정 ​
 +
 +보루타 알고리즘은 주요 요인 선정 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능하나,​ 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기는 어려움
 +- 보루타 알고리즘의 shadow feature는 주요 요인 여부를 명확히 구분해 주고, 중요도(Importance)값은 독립변수 간 상대적 중요도의 비교를 가능케 함
 +- 그러나, 중요도값만으로는 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기 어려움
 +
 +디지털 전환 촉진에 영향을 주는 주요 요인을 도출하기 위해 사용된 4가지 분석 방법의 특성 비교 (표 12) 
 +- (Spearman 상관분석) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 요인 간 상대적 중요도를 비교할 수 없으나, 디지털 전환에 대한 요인의 정(+) 또는 부(-) 상관관계는 제시
 +- (이항 로지스틱 회귀분석) 촉진 요인을 선정하기 위한 기준을 제시하기 어려우나,​ 요인 간 상대적 중요도 비교는 가능하고 요인의 회귀계수 부호로 디지털 전환의 정(+) 또는 부(-) 영향 구분 가능
 +- (랜덤포레스트) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 요인 간 상대적 중요도는 어느 정도 비교 가능 (알고리즘 임의성으로 인해 상대적중요도가 매번 변함)
 +- (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
 +
 +== BORUTA 알고리즘 ==
 +https://​hongl.tistory.com/​112
 +BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다.
 +1) 모든 변수들을 복사합니다.
 +2) 복사한 변수 (tabular 데이터에서의 column)를 타겟에 uncorrelated 하게 만들기 위해 랜덤하게 섞습니다. (permute)
 +3) 원래 features와 1,2 과정을 거친 shadow features를 합칩니다. (concat)
 +4) Feature importance를 잴 수 있는 의사결정나무 기반의 Random forest나 XGBoost 등의 모델을 활용하여 학습합니다.
 +5) 학습 결과 나온 feature importance를 기반으로 shadow features의 가장 큰 feature importance를 임계치로 잡아 이보다 작은 importance를 가진 feature를 중요하지 않다고 분류합니다.
 +6) 1-5의 과정을 반복하여 통계적으로 유의미한 결과를 얻을 수 있도록 합니다.
 ====ISLR===== ====ISLR=====
 http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf
Line 157: Line 198:
 그럼에도 예측값은 어떤 순서를 제공하고 대충 확률 추정치로 해석될 수 있음. 신기하게도,​ 이진 반응변수 예측을 위해 선형회귀를 사용하는 경우 얻게 되는 분류는 LDA(Linear Discriminant Analysis)의 결과와 동일 그럼에도 예측값은 어떤 순서를 제공하고 대충 확률 추정치로 해석될 수 있음. 신기하게도,​ 이진 반응변수 예측을 위해 선형회귀를 사용하는 경우 얻게 되는 분류는 LDA(Linear Discriminant Analysis)의 결과와 동일
 === 4.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . 130 === === 4.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . 130 ===
 +  * Continuous Ratio : Beta Regression ​
 +https://​stats.stackexchange.com/​questions/​29038/​regression-for-an-outcome-ratio-or-fraction-between-0-and-1
 +Let me make a quick clarification. I interpret the question as being about the ratio of two, positive, real values. If so, (and they are distributed as Gammas) that is a Beta distribution. However, if a is a count of '​successes'​ out of a known total, b, of '​trials',​ then this would be a count proportion a/b, not a continuous proportion, and you should use binomial GLM (e.g., logistic regression). ​
 +
 +https://​stats.stackexchange.com/​questions/​259131/​what-is-the-relationship-between-the-beta-distribution-and-the-logistic-regressi
 +Beta is a distribution of values in (0,1) range that is very flexible in it's shape, so for almost any unimodal empirical distribution of values in (0,1) you can easily find parameters of such beta distribution that "​resembles"​ shape of the distribution.
 +Notice that logistic regression provides you with conditional probabilities Pr(Y=1∣X),​ while on your plot you are presenting us the marginal distribution of predicted probabilities. Those are two different things to talk about.
 +
 +https://​stackoverflow.com/​questions/​56316514/​beta-regression-vs-linear-regression-for-strictly-bounded-outcome-variable-0-1
 +You can apply a sigmoid function to the output of the linear regression (this is called "​logistic regression"​),​ but this will model a binary variable and give you the probability of the variable being 1. In your case, your variable isn't binary, it can have any value between 0 and 1. For that problem, you need to apply a beta regression, which will give you a bounded output between 0 and 1.
 +
 +
 4.3.1 The Logistic Model . . . . . . . . . . . . . . . . . . . 131 4.3.1 The Logistic Model . . . . . . . . . . . . . . . . . . . 131
 4.3.2 Estimating the Regression Coefficients . . . . . . . . 133 4.3.2 Estimating the Regression Coefficients . . . . . . . . 133
Line 507: Line 560:
   * > 0 : positive skewness, right skewed, 오른쪽 긴꼬리 --- 평균보다 큰 X가 훨씬 많으니까 양수   * > 0 : positive skewness, right skewed, 오른쪽 긴꼬리 --- 평균보다 큰 X가 훨씬 많으니까 양수
       * 최빈값 < 중앙값 < 평균       * 최빈값 < 중앙값 < 평균
-      * 오른쪽 꼬리가 기니까, 최빈값보다 중앙값, 평균이 크다+      * 오른쪽 꼬리가 기니까, 최빈값보다 중앙값, 평균이 크다 ​: 오른쪽 꼬리가 길다 = 보이는 왼쪽부분보다 면적이 훨씬 크다는 점을 헷갈리지 않도록!
       * 면적의 중간인 중앙값보다,​ 무게중심을 맞추기 위해서는 평균이 오른쪽으로 더 치우쳐져야 함 (ex. 시소)       * 면적의 중간인 중앙값보다,​ 무게중심을 맞추기 위해서는 평균이 오른쪽으로 더 치우쳐져야 함 (ex. 시소)
 +      * 소득분포를 생각해보자
   * < 0 : negative skewness, 왼쪽 긴꼬리   * < 0 : negative skewness, 왼쪽 긴꼬리
  
Line 525: Line 579:
 제2장 확률분포 제2장 확률분포
 2.1 확률과 확률분포 2.1 확률과 확률분포
 +[[data_analysis:​probability_distributions]]
 +
 +
 2.2 확률이 같은 분포 - 균일분포 2.2 확률이 같은 분포 - 균일분포
 2.3 동전 던지기의 분포 - 이항분포 2.3 동전 던지기의 분포 - 이항분포
Line 533: Line 590:
 2.4 종 모양의 분포 - 정규분포 2.4 종 모양의 분포 - 정규분포
 2.5 척도가 없는 분포 - 표준정규분포 2.5 척도가 없는 분포 - 표준정규분포
 +범위를 제한
 +https://​en.wikipedia.org/​wiki/​Truncated_normal_distribution
 +
 2.6 데이터의 위치를 알 수 있다 - 시그마 구간 2.6 데이터의 위치를 알 수 있다 - 시그마 구간
 2.7 분포의 형태 - 왜도와 첨도 2.7 분포의 형태 - 왜도와 첨도
Line 550: Line 610:
 3.8 측정값과 참값의 차이 - 계통오차와 우연오차 3.8 측정값과 참값의 차이 - 계통오차와 우연오차
 3.9 표본평균에 관한 두 정리 - 대수의 법칙과 중심극한정리 3.9 표본평균에 관한 두 정리 - 대수의 법칙과 중심극한정리
 +[[blog:​easy_clt_survey]]
 +CLT for median ​
 +https://​math.stackexchange.com/​questions/​2598143/​median-of-large-numbers-of-gaussian-has-gaussian-distribution
 +Let X1,​…,​Xn ​ be a random sample from a continuous PDf f(x) that is continuous and nonzero at the pth percentile xp,for 0<​p<​1. ​
 +If k/n→p (with k=np bounded), then the sequence of the kth order statistics Xk:n is asymptotically normal with 
 +mean xp and variance c2/n, where c2=p(1−p)[f(xp)]2.
 +Notice that the theorem does not apply to the maximum or minimum.
 +
 +https://​osebje.famnit.upr.si/​~russ.woodroofe/​wustl-notes/​CLT-medians.pdf
 +
  
 제4장 신뢰구간의 추정 제4장 신뢰구간의 추정