DAY24. R 분류분석

LEE_BOMB 2021. 10. 19. 19:55

2021. 10. 19. 19:55

01. 분류 분석 (classification analysis)

다수의 속성(attribute) 또는 변수를 갖는 객체를 사전에 정해진 그룹 또는 범주(class, category) 중의 하나로 분류하는 방법

의사결정나무(Decision Tree) 분류 모델링에 의해서 만들어진 규칙(rule)를 가지와 줄기의 나무 모양으로 분류하는 방법, 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있다

활용분야 악성종양 예측모델, 고객이탈 예측모델

ex. 고객 분류 : 고객 분류 변수 -> 규칙, 특성 -> 잠재 고객 예측

의사결정나무(Decision Tree) 알고리즘

알고리즘	중요변수 평가지수	비고
CHAID	카이제곱(범주형)	범주형 종속변수 패키지 : CHAID
CART(Classification And Regression Trees)	GINI Index	범주형과 숫자형 종속변수 패키지 : rpart
C5.0(C4.5)	Information Gain	범주형과 숫자형 종속변수 패키지 : C50

02. Decision Tree 모델 특징

종속변수(y변수) 존재

* 범주형(명목 척도) 변수 사용 : 분류 트리

* 숫자형(비율 척도) 변수 사용 : 회귀 트리

규칙(Rule)을 기반으로 의사결정트리 생성  비모수 검정 : 선형성, 정규성, 등분산성 가정 필요 없음

유의수준 판단 기준 없음(추론 기능 없음)

의사결정트리 용어

계층 구조, 노드(node)와 에지(edge) 집합

노드 : 타원, 에지 : 선(line)

노드 유형

내부(internal) 노드 : 자식노드 있음

종단(leaf) 노드 : 자식노드 없음

모든 노드에서 들어오는 에지는 하나

노드에서 나가는 에지는 2개 이하

Decision Tree 모델 특징

모델의 시각화가 쉽고, 가독성 높음(해석 쉬움)

특징(변수)의 스케일(정규화나 표준화)조정이 필요 없음

독립변수에 이진과 연속 변수가 혼합되어 있어도 잘 동작

많은 특징(입력변수)을 갖는 데이터 셋은 부적합

단일결정 Tree 학습으로 과적합 발생 우려(일반화 성능 저하)

과적합 해결방안 : 가지치기(CP : Cut Prune)

3. 편향과 분산

지도 학습에서 error를 처리하는 주요 파라미터

편향 : 예측값과 정답과의 차이(오차)

분산 : 예측값들끼리의 분포 형태(흩어진 정도)

Trade-off : 분산(↑) vs 편향(↓), 분산(↓) vs 편향(↑)

최적의 모델 : 편향과 분산이 모두 작은 경우

복잡한 모델 : 편향은 작고, 분산은 크다.(과적합 가능성 높음)

과적합 해결방안 : 분산은 낮게, 편향은 높은 방향으로 조정

* 분산이 크다 : 예측 값이 일정한 패턴이 없다는 뜻

모델의 복잡도(Model Complexity)

4. 분류분석 실습(이항분류)

5. 교차검정

install.packages('cvTools')
library('cvTools')

[단계1] k겹 교차검정을 위한 샘플링

cross = cvFolds(n=nrow(iris), K=5, R=1)
cross
#Fold(dataset구분)   Index(행번호)
# dataset1 : 120, 125, ... 79
# dataset2 : 146, 12, ... 137

str(cross) #List of 5
#$subsets : 행번호 (2차원 [nrow,R])
#$which : dataset구분자 역할 (1차원)

dataset1 = cross$subsets[cross$which==1, 1]
length(dataset1) #30
dataset1

dataset5 = cross$subsets[cross$which==5, 1]
length(dataset5) #30
dataset5

[단계2] k겹 교차검정

library(rpart)

r = 1
n = 1:5
ACC = numeric() #vector변수

for(k in n){ #5회반복
  #1. 샘플링
  idx = cross$subsets[cross$which==k, r] #행번호
  test = iris[idx, ] #검정셋(1set)
  train = iris[-idx, ] #훈련셋(4set)
  #2.모델 생성
  model = rpart(Species ~ ., data = train) #모델생성
  #3. 예측치
  y_pred = predict(model, test, type="class") #예측치
  #4. 혼동행렬
  t = table(test$Species, y_pred)
  #5. 분류 정확도
  ACC[k] = (t[1,1]+t[2,2]+t[3,3]) / sum(t)
}

[단계3] 교차검정 평가(산술평균)

ACC
cat('분류정확도 산술평균 =', mean(ACC)) #분류정확도 산술평균 = 0.9333333

#회귀트리 평가 (R2 Score, MSE(Y변수 스케일링))

6. Entropy

확률 변수 간의 불확실성을 나타내는 수치

Tree model에서 중요 변수(x) 선정 시 사용

무질서의 양의 척도, 작을 수록 불확실성이 낮다.

Entropy = -∑ 𝑝𝑝 * log2(𝑝𝑝) (p : 확률)

정보이득 = root 노드 Entropy – 각 변수 Entropy

정보이득이 클 수록 중요변수로 본다.

CART(Classification And Regression Tree)에서는 GINI index 이용

GINI = ∑ 𝑝 (1 − 𝑝) #지니 불순도(Gini impurity)

Gini Index = 1 – GINI 계수

'데이터분석가 과정 > R' 카테고리의 다른 글

DAY26. R 군집분석(2) (0)	2021.10.21
DAY25. R 군집분석 (0)	2021.10.21
DAY23. R 로지스틱회귀분석 (0)	2021.10.18
DAY22. R 기계학습이론, 선형회귀분석 (0)	2021.10.15
DAY21. 주성분분석, 요인분석 (0)	2021.10.14

💣

DAY24. R 분류분석

'데이터분석가 과정 > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바