Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Last revision Both sides next revision
data_analysis:statistics_and_machine_learning [2023/11/28 11:00]
prgram [Feature]
data_analysis:statistics_and_machine_learning [2023/11/28 11:15]
prgram [Feature]
Line 86: Line 86:
 ­ (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능 ­ (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만,​ 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
  
 +== BORUTA 알고리즘 == 
 +BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다. 
 +1) 모든 변수들을 복사합니다. 
 +2) 복사한 변수 (tabular 데이터에서의 column)를 타겟에 uncorrelated 하게 만들기 위해 랜덤하게 섞습니다. (permute) 
 +3) 원래 features와 1,2 과정을 거친 shadow features를 합칩니다. (concat) 
 +4) Feature importance를 잴 수 있는 의사결정나무 기반의 Random forest나 XGBoost 등의 모델을 활용하여 학습합니다. 
 +5) 학습 결과 나온 feature importance를 기반으로 shadow features의 가장 큰 feature importance를 임계치로 잡아 이보다 작은 importance를 가진 feature를 중요하지 않다고 분류합니다. 
 +6) 1-5의 과정을 반복하여 통계적으로 유의미한 결과를 얻을 수 있도록 합니다.
 ====ISLR===== ====ISLR=====
 http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf http://​faculty.marshall.usc.edu/​gareth-james/​ISL/​ISLR%20Seventh%20Printing.pdf