🛠 기타/Data & AI

[scikit-learn 라이브러리] DecisionTreeClassifier (결정트리분류기)

inu 2020. 8. 5. 00:41

결정트리

  • 분할과 가지치기 과정을 반복하면서 모델을 생성한다.
  • 결정트리에는 분류와 회귀 모두에 사용할 수 있다.
  • 여러개의 모델을 함께 사용하는 앙상블 모델이 존재한다. (RandomForest, GradientBoosting, XGBoost)
  • 각 특성이 개별 처리되기 때문에 데이터 스케일에 영향을 받지 않아 특성의 정규화나 표준화가 필요 없다.
  • 시계열 데이터와 같이 범위 밖의 포인트는 예측 할 수 없다.
  • 과대적합되는 경향이 있다. 이는 본문에 소개할 가지치기 기법을 사용해도 크게 개선되지 않는다.

DecisionTreeClassifier()

DecisionTreeClassifier(criterion, splitter, max_depth, min_samples_split, min_samples_leaf, min_weight_fraction_leaf, max_features, random_state, max_leaf_nodes, 
min_impurity_decrease, min_impurity_split, class_weight, presort)
  • criterion : 분할 품질을 측정하는 기능 (default : gini)
  • splitter : 각 노드에서 분할을 선택하는 데 사용되는 전략 (default : best)
  • max_depth : 트리의 최대 깊이 (값이 클수록 모델의 복잡도가 올라간다.)
  • min_samples_split : 자식 노드를 분할하는데 필요한 최소 샘플 수 (default : 2)
  • min_samples_leaf : 리프 노드에 있어야 할 최소 샘플 수 (default : 1)
  • min_weight_fraction_leaf : min_sample_leaf와 같지만 가중치가 부여된 샘플 수에서의 비율
  • max_features : 각 노드에서 분할에 사용할 특징의 최대 수
  • random_state : 난수 seed 설정
  • max_leaf_nodes : 리프 노드의 최대수
  • min_impurity_decrease : 최소 불순도
  • min_impurity_split : 나무 성장을 멈추기 위한 임계치
  • class_weight : 클래스 가중치
  • presort : 데이터 정렬 필요 여부

사용 예제

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# 데이터 로드
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=11)

# 모델 학습
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)
  • iris 데이터를 활용해 학습 데이터와 테스트 데이터를 만든다.
  • random_state 값만 주어 model을 만들고 학습 데이터를 fitting 시킨다.
# 결정트리 규칙을 시각화
import matplotlib.pyplot as plt
from sklearn import tree

plt.figure( figsize=(20,15) )
tree.plot_tree(model, 
               class_names=iris.target_names,
               feature_names=iris.feature_names,
               impurity=True, filled=True,
               rounded=True)
  • sklearn의 tree 모듈을 활용해 완성된 결정트리를 그린다.

  • 모두 분류될 때까지 (지니불순도가 0이 될때까지 리프 노드를 확장한 것을 확인할 수 있다.

가지치기

  • 위에서 만든 결정트리는 학습 데이터에 완전 적합(과적합)되어 있다. 따라서 다른 데이터엔 적절하게 사용될 수 없을 것이다.
  • 따라서 적절히 가치지기를 수행한다.
model = DecisionTreeClassifier(max_depth=3, random_state=42)
model.fit(X_train, y_train)

# 결정트리 규칙 시각화
plt.figure( figsize=(20,15) )
tree.plot_tree(model, 
               class_names=iris.target_names,
               feature_names=iris.feature_names,
               impurity=True, filled=True,
               rounded=True)
  • max_depth를 3으로 주고 시각화를 진행했다.

  • 깊이 3일 때까지만 분류를 진행했음을 알 수 있다.
  • 이 외에도 min_samples_split(리프 노드가 될 수 있는 샘플 데이터 최소값), min_samples_leaf(리프 노드가 될 수 있는 샘플 데이터 최소값), max_leaf_nodes (리프 노드가 될 수 있는 샘플 데이터 최대값) 등을 조절해 가지치기를 할 수 있다.

특성 중요도

  • 트리 분류 모델 형성에 각 특성이 얼마나 작용했는지 평가하는 지표이다.
  • 해당 지표는 0~1사이의 값을 가지며, 0이면 특성이 전혀 작용하지 않았음을 의미하고 1은 완전하게 작용했음을 의미한다.
  • 특성 중요도 전체의 합은 1이다.
import seaborn as sns
import numpy as np
%matplotlib inline

# feature별 importance 매핑
for name, value in zip(iris.feature_names , model.feature_importances_):
    print('{} : {:.3f}'.format(name, value))

# feature importance를 column 별로 시각화 하기 
sns.barplot(x=model.feature_importances_ , y=iris.feature_names)
==결과==
sepal length (cm) : 0.006
sepal width (cm) : 0.000
petal length (cm) : 0.546
petal width (cm) : 0.448

  • 특정 모델 트리의 feature_importances_ 변수를 확인함으로서 특성 중요도를 체크할 수 있다.
  • (cf. 해당 특성중요도는 위의 트리와는 연관이 없다.)