반응형
stopwords
-
nltk 패키지로 불용어(stopwords) 제거하기프로그래밍/자연어처리 2017. 7. 6. 15:57
불용어(stopwords)는 관사(a, an, the), 전치사(of, on, for), 대명사(it, he, her)와 같이 자연어 처리를 하면서 개별 단어 단위로 처리되지 않는 일반적인 단어입니다. nltk는 이런 불용어(stopwords)를 간단히 제거할 수 있는 기능을 제공하고 있습니다. 이런 기능을 사용하기 위해서는 일단 nltk package를 다운받아야 합니다. 예전에 패키지를 다운받아놓고 위치를 까먹어서 nltk.download()의 c 옵션으로 corpus 위치를 확인합니다. >>> import nltk>>> nltk.download() --------------------------------------------------------------------------- d) Downlo..