Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
data_analysis:statistics_and_machine_learning [2023/02/23 10:19]
prgram [4.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . 130]
data_analysis:statistics_and_machine_learning [2023/11/28 11:15] (current)
prgram [Feature]
Line 53: Line 53:
   * Random forest can detect non-linear relationship very well so selecting variables via Information Value and using them in random forest model might not produce the most accurate and robust predictive model.   * Random forest can detect non-linear relationship very well so selecting variables via Information Value and using them in random forest model might not produce the most accurate and robust predictive model.
  
 +
 +== 비교 ==
 +[[https://​ifs.or.kr/​bbs/​board.php?​bo_table=research&​wr_id=10757|IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf]]
 +종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택
 +- Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움
 +- 11개의 독립변수 중 1개를 제외한 10개의 변수가 통계적으로 유의한 상황에서 디지털 전환 촉진 주요 요인이 되기 위한 상관계수 절대값 기준을 세우기 힘듦 (연구자의 자의적 판단 필요)
 +- 요인(독립변수) 간 단위가 상이하여 상관계수값으로 요인 간 상대적 중요도를 비교하기에는 적절치 않음
 +
 +이항 로지스틱 회귀분석을 통해 디지털 전환 촉진 요인 간 상대적 중요도 비교는 가능하나,​ 주요 요인 한정(限定)은 어려움
 +- 이항 로지스틱 회귀분석 결과인 표준화된 회귀계수 절대값을 이용하여 요인(독립변수) 간 상대적 중요도 비교는 가능
 +- 그러나, 주요 요인을 한정하기 위한 표준화된 회귀계수 절대값의 기준 설정이 어려워 연구자의 자의적 판단 필요
 +
 +랜덤포레스트 알고리즘을 통해 주요 요인 간 상대적 중요도 비교는 어느 정도 가능하나,​ 선정된 요인의 디지털 전환 정(+) 또는 부(-) 영향구분 및 주요 요인 한정(限定)은 어려움
 +- 랜덤포레스트 알고리즘 수행 결과인 요인(독립변수)별 MDA 값을 이용하여 요인 간 상대적 중요도 비교 가능
 +- 그러나, 랜덤포레스트 알고리즘 수행 시마다 MDA 값이 변하기 때문에 요인 간 상대적 중요도에 차이가 발생하고 상대적 중요도 순위가 바뀔 수 있음 (fluctuation 특성)
 +- 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향인지 MDA값만으로 구분하기 어려움
 +- 또한, 주요 요인을 한정하기 위한 MDA 기준 설정이 어려워 연구자의 자의적 판단 필요
 +
 +보루타 알고리즘은 랜덤포레스트를 래핑(wrapping)한 방식으로,​ 랜덤포레스트와 달리 판별 모형 생성에 영향을 주지 못하는 변수를 제외시키고 통계 기법을 통해 주요 요인의 상대적 중요도 확정
 +- 보루타 알고리즘은 Shadow feature를 추가하여 판별 모형 생성 시 영향을 주는 주요 요인 변수와 영향을 주지 않는 변수 구분
 +- 기존 랜덤포레스트 알고리즘의 fluctuation 한계를 극복하기 위해 보루타 알고리즘은 통계적인 방법(z-score)을 사용하여 독립변수별 상대적 중요도 확정 ​
 +
 +보루타 알고리즘은 주요 요인 선정 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능하나,​ 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기는 어려움
 +- 보루타 알고리즘의 shadow feature는 주요 요인 여부를 명확히 구분해 주고, 중요도(Importance)값은 독립변수 간 상대적 중요도의 비교를 가능케 함
 +- 그러나, 중요도값만으로는 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기 어려움
 +
 +디지털 전환 촉진에 영향을 주는 주요 요인을 도출하기 위해 사용된 4가지 분석 방법의 특성 비교 (표 12) 
 +- (Spearman 상관분석) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 요인 간 상대적 중요도를 비교할 수 없으나, 디지털 전환에 대한 요인의 정(+) 또는 부(-) 상관관계는 제시
 +- (이항 로지스틱 회귀분석) 촉진 요인을 선정하기 위한 기준을 제시하기 어려우나,​ 요인 간 상대적 중요도 비교는 가능하고 요인의 회귀계수 부호로 디지털 전환의 정(+) 또는 부(-) 영향 구분 가능
 +- (랜덤포레스트) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 요인 간 상대적 중요도는 어느 정도 비교 가능 (알고리즘 임의성으로 인해 상대적중요도가 매번 변함)
 +- (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
 +
 +== BORUTA 알고리즘 ==
 +https://​hongl.tistory.com/​112
 +BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다.
 +1) 모든 변수들을 복사합니다.
 +2) 복사한 변수 (tabular 데이터에서의 column)를 타겟에 uncorrelated 하게 만들기 위해 랜덤하게 섞습니다. (permute)
 +3) 원래 features와 1,2 과정을 거친 shadow features를 합칩니다. (concat)
 +4) Feature importance를 잴 수 있는 의사결정나무 기반의 Random forest나 XGBoost 등의 모델을 활용하여 학습합니다.
 +5) 학습 결과 나온 feature importance를 기반으로 shadow features의 가장 큰 feature importance를 임계치로 잡아 이보다 작은 importance를 가진 feature를 중요하지 않다고 분류합니다.
 +6) 1-5의 과정을 반복하여 통계적으로 유의미한 결과를 얻을 수 있도록 합니다.
 ====ISLR===== ====ISLR=====
 http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf
Line 538: Line 579:
 제2장 확률분포 제2장 확률분포
 2.1 확률과 확률분포 2.1 확률과 확률분포
 +[[data_analysis:​probability_distributions]]
 +
 +
 2.2 확률이 같은 분포 - 균일분포 2.2 확률이 같은 분포 - 균일분포
 2.3 동전 던지기의 분포 - 이항분포 2.3 동전 던지기의 분포 - 이항분포
Line 546: Line 590:
 2.4 종 모양의 분포 - 정규분포 2.4 종 모양의 분포 - 정규분포
 2.5 척도가 없는 분포 - 표준정규분포 2.5 척도가 없는 분포 - 표준정규분포
 +범위를 제한
 +https://​en.wikipedia.org/​wiki/​Truncated_normal_distribution
 +
 2.6 데이터의 위치를 알 수 있다 - 시그마 구간 2.6 데이터의 위치를 알 수 있다 - 시그마 구간
 2.7 분포의 형태 - 왜도와 첨도 2.7 분포의 형태 - 왜도와 첨도
Line 563: Line 610:
 3.8 측정값과 참값의 차이 - 계통오차와 우연오차 3.8 측정값과 참값의 차이 - 계통오차와 우연오차
 3.9 표본평균에 관한 두 정리 - 대수의 법칙과 중심극한정리 3.9 표본평균에 관한 두 정리 - 대수의 법칙과 중심극한정리
 +[[blog:​easy_clt_survey]]
 +CLT for median ​
 +https://​math.stackexchange.com/​questions/​2598143/​median-of-large-numbers-of-gaussian-has-gaussian-distribution
 +Let X1,​…,​Xn ​ be a random sample from a continuous PDf f(x) that is continuous and nonzero at the pth percentile xp,for 0<​p<​1. ​
 +If k/n→p (with k=np bounded), then the sequence of the kth order statistics Xk:n is asymptotically normal with 
 +mean xp and variance c2/n, where c2=p(1−p)[f(xp)]2.
 +Notice that the theorem does not apply to the maximum or minimum.
 +
 +https://​osebje.famnit.upr.si/​~russ.woodroofe/​wustl-notes/​CLT-medians.pdf
 +
  
 제4장 신뢰구간의 추정 제4장 신뢰구간의 추정