- 원핫 벡터는 희소하고 고차원이라는 특징이 있다.
- 이에 반해 워드 임베딩을 통해 만들어진 벡터는 저차원이며 실수형이다.
- 원핫 벡터는 보통 20000차원 이상인데 반해 워드 임베딩 벡터는 256~1024차원으로 더 많은 정보를 적은 차원에 저장할 수 있다.
- 다른 작업에서 사전 훈련된 워드 임베딩을 사용할 수도 있고, 관심 대상인 문제로 직접 워드 임베딩을 구할 수도 있다.
Embedding
from keras.layers import Embedding
# Embedding 층
embedding_layer = Embedding(1000, 64)
- Embedding이라는 층을 통해 워드 임베딩을 진행할 수 있다. 단어 인덱스를 밀집 벡터로 매핑하는 딕셔너리로 임베딩이 수행된다.
- 첫번째 파라미터는 토큰 갯수(단어 인덱스 갯수+1), 두번째 파라미터는 임베딩할 차원이다.
- 다른 층과 마찬가지로 가중치를 가지기 때문에 이 역시 학습되면서 이어지는 모델이 사용할 수 있는 임베딩 공간을 구성한다. 학습이 끝나면 특정 문제에 특화된 구조의 워드 임베딩 레이어가 된다.
'🛠 기타 > Data & AI' 카테고리의 다른 글
다층퍼셉트론 - 기본구조 구현 (0) | 2020.08.02 |
---|---|
다층 퍼셉트론 - 기본구조 이론 (0) | 2020.08.02 |
Keras Tokenizer (단어 인덱스 부여 및 원-핫 인코딩) (0) | 2020.07.31 |
TensorFlow 텐서플로우를 이용한 딥러닝 (0) | 2020.07.31 |
TensorFlow 텐서 초기화 (0) | 2020.07.31 |