Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
data_analysis:statistics_and_machine_learning [2023/11/28 10:59] prgram [Feature] |
data_analysis:statistics_and_machine_learning [2023/11/28 11:15] prgram [Feature] |
||
---|---|---|---|
Line 55: | Line 55: | ||
== 비교 == | == 비교 == | ||
- | [[ IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf|https://ifs.or.kr/bbs/board.php?bo_table=research&wr_id=10757]] | + | [[https://ifs.or.kr/bbs/board.php?bo_table=research&wr_id=10757|IS-163 국내 기업의 디지털 전환 촉진을 위한 주요 요인 도출 및 실증 연구_v20230818-03 1.pdf]] |
종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택 | 종속변수가 명목형이기 때문에 Spearman 상관분석 방법 채택 | ||
- Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움 | - Spearman 상관분석은 주요 요인 한정(限定) 및 요인 간 상대적 중요도 비교가 어려움 | ||
Line 86: | Line 86: | ||
(보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능 | (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능 | ||
+ | == BORUTA 알고리즘 == | ||
+ | BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다. | ||
+ | 1) 모든 변수들을 복사합니다. | ||
+ | 2) 복사한 변수 (tabular 데이터에서의 column)를 타겟에 uncorrelated 하게 만들기 위해 랜덤하게 섞습니다. (permute) | ||
+ | 3) 원래 features와 1,2 과정을 거친 shadow features를 합칩니다. (concat) | ||
+ | 4) Feature importance를 잴 수 있는 의사결정나무 기반의 Random forest나 XGBoost 등의 모델을 활용하여 학습합니다. | ||
+ | 5) 학습 결과 나온 feature importance를 기반으로 shadow features의 가장 큰 feature importance를 임계치로 잡아 이보다 작은 importance를 가진 feature를 중요하지 않다고 분류합니다. | ||
+ | 6) 1-5의 과정을 반복하여 통계적으로 유의미한 결과를 얻을 수 있도록 합니다. | ||
====ISLR===== | ====ISLR===== | ||
http://faculty.marshall.usc.edu/gareth-james/ISL/ISLR%20Seventh%20Printing.pdf | http://faculty.marshall.usc.edu/gareth-james/ISL/ISLR%20Seventh%20Printing.pdf |