[회고] 신입 iOS 개발자가 되기까지 feat. 카카오 자세히보기

🛠 기타/Data & AI

파이썬 토크나이저 - stop words (nltk)

inu 2020. 7. 17. 10:10
반응형

stop words

nltk.download('stopwords')
  • stopwords에 필요한 데이터를 먼저 다운 받아야 한다.
from nltk.corpus import stopwords

sw = stopwords.words('english')
# sw = ['.', ',']
print(sw)
print(words)

removed_list = []
for word in words:
  if word.lower() not in sw:
    removed_list.append(word)

print(removed_list)
  • stop words란 '.'이나 'me' 등과 같이 문장 해석에 실질적으로 도움이 되지 않은 단어를 뜻한다.
  • 따라서 보통 해당 단어는 해석에서 제외시킨다.
  • stopwords.words('english')로 영어의 stopswords를 불러올 수 있다.
  • 하지만 보통 stopwords는 처리해야할 데이터가 주로 무엇인지에 따라 그 기준이 달라진다. 따라서 주어진 라이브러리에서 얻어서 무작정 활용한다고 좋은 결과가 나오는 것은 아니다. 따라서 위의 ['.', ',']와 같이 직접 초기화해 사용하는 것이 더 바람직하다.
반응형