반응형
stop words
nltk.download('stopwords')
- stopwords에 필요한 데이터를 먼저 다운 받아야 한다.
from nltk.corpus import stopwords
sw = stopwords.words('english')
# sw = ['.', ',']
print(sw)
print(words)
removed_list = []
for word in words:
if word.lower() not in sw:
removed_list.append(word)
print(removed_list)
- stop words란 '.'이나 'me' 등과 같이 문장 해석에 실질적으로 도움이 되지 않은 단어를 뜻한다.
- 따라서 보통 해당 단어는 해석에서 제외시킨다.
- stopwords.words('english')로 영어의 stopswords를 불러올 수 있다.
- 하지만 보통 stopwords는 처리해야할 데이터가 주로 무엇인지에 따라 그 기준이 달라진다. 따라서 주어진 라이브러리에서 얻어서 무작정 활용한다고 좋은 결과가 나오는 것은 아니다. 따라서 위의 ['.', ',']와 같이 직접 초기화해 사용하는 것이 더 바람직하다.
반응형
'🛠 기타 > Data & AI' 카테고리의 다른 글
선형회귀와 경사하강법(Gradient Descent) (0) | 2020.07.17 |
---|---|
파이썬 토크나이저 - 단어 개수 세기 (0) | 2020.07.17 |
파이썬 토크나이저 - 어간 찾기 (nltk) (0) | 2020.07.17 |
Pandas 데이터프레임 pivot table (0) | 2020.07.16 |
Pandas 데이터프레임 데이터 별 함수적용 (0) | 2020.07.16 |