Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
data_analysis:statistics_and_machine_learning [2023/11/28 10:59]
prgram [Feature]
data_analysis:statistics_and_machine_learning [2023/11/28 11:15]
prgram [Feature]
Line 55: Line 55:
  
 == 비교 == == 비교 ==
-[[|https://​ifs.or.kr/​bbs/​board.php?​bo_table=research&​wr_id=10757|IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf]]+[[https://​ifs.or.kr/​bbs/​board.php?​bo_table=research&​wr_id=10757|IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf]]
 종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택 종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택
 - Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움 - Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움
Line 86: Line 86:
 ­ (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능 ­ (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
  
 +== BORUTA 알고리즘 == 
 +BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다. 
 +1) 모든 변수들을 복사합니다. 
 +2) 복사한 변수 (tabular 데이터에서의 column)를 타겟에 uncorrelated 하게 만들기 위해 랜덤하게 섞습니다. (permute) 
 +3) 원래 features와 1,2 과정을 거친 shadow features를 합칩니다. (concat) 
 +4) Feature importance를 잴 수 있는 의사결정나무 기반의 Random forest나 XGBoost 등의 모델을 활용하여 학습합니다. 
 +5) 학습 결과 나온 feature importance를 기반으로 shadow features의 가장 큰 feature importance를 임계치로 잡아 이보다 작은 importance를 가진 feature를 중요하지 않다고 분류합니다. 
 +6) 1-5의 과정을 반복하여 통계적으로 유의미한 결과를 얻을 수 있도록 합니다.
 ====ISLR===== ====ISLR=====
 http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf