Differences

This shows you the differences between two versions of the page.

--- data_analysis:statistics_and_machine_learning [2023/11/28 11:15]
prgram [Feature]
+++ data_analysis:statistics_and_machine_learning [2023/11/28 11:15] (current)
prgram [Feature]
@@ Line 62: / Line 62: @@
 이항 로지스틱 회귀분석을 통해 디지털 전환 촉진 요인 간 상대적 중요도 비교는 가능하나, 주요 요인 한정(限定)은 어려움
- 이항 로지스틱 회귀분석 결과인 표준화된 회귀계수 절대값을 이용하여 요인(독립변수) 간 상대적 중요도 비교는 가능
+- 이항 로지스틱 회귀분석 결과인 표준화된 회귀계수 절대값을 이용하여 요인(독립변수) 간 상대적 중요도 비교는 가능
- 그러나, 주요 요인을 한정하기 위한 표준화된 회귀계수 절대값의 기준 설정이 어려워 연구자의 자의적 판단 필요
+- 그러나, 주요 요인을 한정하기 위한 표준화된 회귀계수 절대값의 기준 설정이 어려워 연구자의 자의적 판단 필요
 랜덤포레스트 알고리즘을 통해 주요 요인 간 상대적 중요도 비교는 어느 정도 가능하나, 선정된 요인의 디지털 전환 정(+) 또는 부(-) 영향구분 및 주요 요인 한정(限定)은 어려움
- 랜덤포레스트 알고리즘 수행 결과인 요인(독립변수)별 MDA 값을 이용하여 요인 간 상대적 중요도 비교 가능
+- 랜덤포레스트 알고리즘 수행 결과인 요인(독립변수)별 MDA 값을 이용하여 요인 간 상대적 중요도 비교 가능
- 그러나, 랜덤포레스트 알고리즘 수행 시마다 MDA 값이 변하기 때문에 요인 간 상대적 중요도에 차이가 발생하고 상대적 중요도 순위가 바뀔 수 있음 (fluctuation 특성)
+- 그러나, 랜덤포레스트 알고리즘 수행 시마다 MDA 값이 변하기 때문에 요인 간 상대적 중요도에 차이가 발생하고 상대적 중요도 순위가 바뀔 수 있음 (fluctuation 특성)
- 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향인지 MDA값만으로 구분하기 어려움
+- 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향인지 MDA값만으로 구분하기 어려움
- 또한, 주요 요인을 한정하기 위한 MDA 기준 설정이 어려워 연구자의 자의적 판단 필요
+- 또한, 주요 요인을 한정하기 위한 MDA 기준 설정이 어려워 연구자의 자의적 판단 필요
 보루타 알고리즘은 랜덤포레스트를 래핑(wrapping)한 방식으로, 랜덤포레스트와 달리 판별 모형 생성에 영향을 주지 못하는 변수를 제외시키고 통계 기법을 통해 주요 요인의 상대적 중요도 확정
- 보루타 알고리즘은 Shadow feature를 추가하여 판별 모형 생성 시 영향을 주는 주요 요인 변수와 영향을 주지 않는 변수 구분
+- 보루타 알고리즘은 Shadow feature를 추가하여 판별 모형 생성 시 영향을 주는 주요 요인 변수와 영향을 주지 않는 변수 구분
-* 본 분석에서는 알고리즘이 총 550회 반복 수행되어 중요 변수와 그렇지 않은 변수 구분(그림 5)
+- 기존 랜덤포레스트 알고리즘의 fluctuation 한계를 극복하기 위해 보루타 알고리즘은 통계적인 방법(z-score)을 사용하여 독립변수별 상대적 중요도 확정
- 기존 랜덤포레스트 알고리즘의 fluctuation 한계를 극복하기 위해 보루타 알고리즘은 통계적인 방법(z-score)을 사용하여 독립변수별 상대적 중요도 확정 (그림 6)
 보루타 알고리즘은 주요 요인 선정 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능하나, 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기는 어려움
- 보루타 알고리즘의 shadow feature는 주요 요인 여부를 명확히 구분해 주고, 중요도(Importance)값은 독립변수 간 상대적 중요도의 비교를 가능케 함
+- 보루타 알고리즘의 shadow feature는 주요 요인 여부를 명확히 구분해 주고, 중요도(Importance)값은 독립변수 간 상대적 중요도의 비교를 가능케 함
- 그러나, 중요도값만으로는 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기 어려움
+- 그러나, 중요도값만으로는 선정된 요인이 디지털 전환 추진 여부에 정(+) 또는 부(-)의 영향을 주는지 구분하기 어려움
 디지털 전환 촉진에 영향을 주는 주요 요인을 도출하기 위해 사용된 4가지 분석 방법의 특성 비교 (표 12)
- (Spearman 상관분석) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 요인 간 상대적 중요도를 비교할 수 없으나, 디지털 전환에 대한 요인의 정(+) 또는 부(-) 상관관계는 제시
+- (Spearman 상관분석) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 요인 간 상대적 중요도를 비교할 수 없으나, 디지털 전환에 대한 요인의 정(+) 또는 부(-) 상관관계는 제시
- (이항 로지스틱 회귀분석) 촉진 요인을 선정하기 위한 기준을 제시하기 어려우나, 요인 간 상대적 중요도 비교는 가능하고 요인의 회귀계수 부호로 디지털 전환의 정(+) 또는 부(-) 영향 구분 가능
+- (이항 로지스틱 회귀분석) 촉진 요인을 선정하기 위한 기준을 제시하기 어려우나, 요인 간 상대적 중요도 비교는 가능하고 요인의 회귀계수 부호로 디지털 전환의 정(+) 또는 부(-) 영향 구분 가능
- (랜덤포레스트) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 요인 간 상대적 중요도는 어느 정도 비교 가능 (알고리즘 임의성으로 인해 상대적중요도가 매번 변함)
+- (랜덤포레스트) 촉진 요인을 선정하기 위한 기준 제시가 어렵고 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 요인 간 상대적 중요도는 어느 정도 비교 가능 (알고리즘 임의성으로 인해 상대적중요도가 매번 변함)
- (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
+- (보루타 알고리즘) 디지털 전환에 대한 요인의 정(+) 또는 부(-) 영향 구분은 어렵지만, 주요 요인을 선정하기 위한 기준을 제시할 수 있고 요인 간 상대적 중요도도 비교 가능
 == BORUTA 알고리즘 ==
+https://hongl.tistory.com/112
 BORUTA의 첫 번째 스텝은 각 변수 (X)를 복사하고 복사된 변수 열을 예측 변수와 관계를 없애기 위해 랜덤하게 섞은 shadow features 를 만드는 것입니다. Shadow features 를 만들고 원래 feature 와 붙인 뒤에 feature importance를 알 수 있는 의사결정나무 기반의 Random forest, XGBoost 등의 모델로 훈련시켜 shadow features 의 feature importance 보다 작은 importance 를 가지는 본래 feature를 제거하자는 원리입니다.
 ) 모든 변수들을 복사합니다.