[회고] 신입 iOS 개발자가 되기까지 feat. 카카오 자세히보기

🛠 기타/Data & AI

Keras Embedding (워드 임베딩)

inu 2020. 7. 31. 21:10
반응형
  • 원핫 벡터는 희소하고 고차원이라는 특징이 있다.
  • 이에 반해 워드 임베딩을 통해 만들어진 벡터는 저차원이며 실수형이다.
  • 원핫 벡터는 보통 20000차원 이상인데 반해 워드 임베딩 벡터는 256~1024차원으로 더 많은 정보를 적은 차원에 저장할 수 있다.
  • 다른 작업에서 사전 훈련된 워드 임베딩을 사용할 수도 있고, 관심 대상인 문제로 직접 워드 임베딩을 구할 수도 있다.

Embedding

from keras.layers import Embedding

# Embedding 층
embedding_layer = Embedding(1000, 64)
  • Embedding이라는 층을 통해 워드 임베딩을 진행할 수 있다. 단어 인덱스를 밀집 벡터로 매핑하는 딕셔너리로 임베딩이 수행된다.
  • 첫번째 파라미터는 토큰 갯수(단어 인덱스 갯수+1), 두번째 파라미터는 임베딩할 차원이다.
  • 다른 층과 마찬가지로 가중치를 가지기 때문에 이 역시 학습되면서 이어지는 모델이 사용할 수 있는 임베딩 공간을 구성한다. 학습이 끝나면 특정 문제에 특화된 구조의 워드 임베딩 레이어가 된다.
반응형