[scikit-learn 라이브러리] VotingClassifier (보팅 분류기)

🛠 기타/Data & AI

[scikit-learn 라이브러리] VotingClassifier (보팅 분류기)

inu 2020. 8. 12. 20:34

보팅의 유형

하드 보팅 : 최종 아웃풋 결과 중 각 모델들이 가장많이 선택한 아웃풋을 최종 아웃풋으로 설정한다.
소프트 보팅 : 최종 아웃풋 결과의 확률값을 기반으로 평균을 내어, 이중 가장 확률값이 높은 아웃풋을 최종 아웃풋으로 설정한다.

보팅 분류기 모듈 사용예제

import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()

data_df = pd.DataFrame(cancer.data, columns = cancer.feature_names)

# 데이터를 훈련셋과 테스트셋으로 나누기
X_train, X_test, y_train, y_test = train_test_split(cancer.data,cancer.target,test_size=0.2,random_state=156)

유방암 데이터셋을 불러와 훈련셋과 테스트셋으로 나누었다.

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

# 보팅모델에 넣기 위한 개별 모델은 로지스틱 회귀와 KNN
logistic_regression = LogisticRegression()
knn = KNeighborsClassifier(n_neighbors=8)

voting_model = VotingClassifier(estimators=[ ('LogisticRegression', logistic_regression),
                                            ('KNN', knn) ], voting='soft')

사이킷런에서 선형회귀모델과 KNN모델을 불러오고, Voting분류기 모델에 포함시켰다.
보팅방식은 소프트보팅으로 선택했다.

classifiers = [logistic_regression, knn]
for classifier in classifiers:
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    class_name = classifier.__class__.__name__
    print('{0} 정확도: {1:.4f}'.format(class_name, accuracy_score(y_test, pred)))

voting_model.fit(X_train, y_train)
pred = voting_model.predict(X_test)
print('보팅 분류기의 정확도: {0: .4f}'.format(accuracy_score(y_test, pred)))

==결과==
ogisticRegression 정확도: 0.9386
KNeighborsClassifier 정확도: 0.9386
보팅 분류기의 정확도:  0.9474

두 모델과 보팅 분류기 모델을 학습시키고(fit) 평가했다.
보팅 분류기가 더 우수한 성능을 보임을 알 수 있다.
하지만 단순히 여러 알고리즘을 마구잡이로 결합한다고해서 항상 성능이 향상되는 것은 아님에 유의하자.

'🛠 기타 > Data & AI' 카테고리의 다른 글

[scikit-learn 라이브러리] BaggingClassifier (배깅분류기) (0)	2020.08.13
[scikit-learn 라이브러리] RandomForestClassifier (랜덤 포레스트 분류) (1)	2020.08.12
앙상블 학습 (0)	2020.08.12
Pandas 데이터프레임 apply, replace (0)	2020.08.09
과적합방지 - Drop out, 배치정규화 (0)	2020.08.07

현재글[scikit-learn 라이브러리] VotingClassifier (보팅 분류기)

이누의 개발성장기

[scikit-learn 라이브러리] VotingClassifier (보팅 분류기)

'🛠 기타 > Data & AI' 카테고리의 다른 글

'🛠 기타/Data & AI'의 다른글

티스토리툴바

[scikit-learn 라이브러리] VotingClassifier (보팅 분류기)

'🛠 기타 > Data & AI' 카테고리의 다른 글

'🛠 기타/Data & AI'의 다른글

관련글

티스토리툴바