반응형
앙상블 학습(Ensemble Learning)
- 앙상블은 여러 머신러닝 모델을 묶어 더 강력한 모델을 만드는 기법들을 총칭한다.
- 대표적으로 랜덤포레스트와 그래디언트 부스팅이 있다. 두 앙상블 모델은 모두 결정트리를 기본요소로 갖는다. (결정트리를 묶어 만든 모델이다.) 다양한 분류 및 회귀 문제에서 효과적임이 입증되었다.
앙상블의 유형
- 앙상블 학습의 유형은 책마다 분류의 기준이 2가지~4가지로 나뉜다.
- 내가 수강한 수업을 기준으로 4가지로 분류해보겠다.
- 보팅(Voting) : 서로 다른 알고리즘의 모델들을 결합하고, 각각의 아웃풋에 대한 투표를 기반으로 최종값을 결정한다. 따라서 앙상블에 속한 모든 모델이 하나의 데이터 샘플을 사용한다.
- 배깅(Bagging) : 모두 같은 유형의 모델을 기반으로 한다. 각 알고리즘이 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행한다.
- 부스팅(Boosting) : 여러 개의 모델이 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측에 실패한 데이터에 대해서 올바르게 예측할 수 있도록 다음 모델에게 가중치(weight)를 부여하면서 학습과 예측을 진행한다.
- 스태킹(Stacking) : 양상블에 속한 모든 모델의 예측을 취합하는 간단한 함수를 사용하고, 취합된 모델을 훈련하여 진행한다.
- cf. 예측을 입력으로 받아 최종 예측하는 예측기를 블렌더(blender) 또는 메타학습기(meta learner)이라고 한다.
반응형
'🛠 기타 > Data & AI' 카테고리의 다른 글
[scikit-learn 라이브러리] RandomForestClassifier (랜덤 포레스트 분류) (1) | 2020.08.12 |
---|---|
[scikit-learn 라이브러리] VotingClassifier (보팅 분류기) (0) | 2020.08.12 |
Pandas 데이터프레임 apply, replace (0) | 2020.08.09 |
과적합방지 - Drop out, 배치정규화 (0) | 2020.08.07 |
로그 스케일로 분포 그리기 (0) | 2020.08.07 |