-
nltk 패키지로 불용어(stopwords) 제거하기프로그래밍/자연어처리 2017. 7. 6. 15:57728x90반응형
불용어(stopwords)는 관사(a, an, the), 전치사(of, on, for), 대명사(it, he, her)와 같이
자연어 처리를 하면서 개별 단어 단위로 처리되지 않는 일반적인 단어입니다.
nltk는 이런 불용어(stopwords)를 간단히 제거할 수 있는 기능을 제공하고 있습니다.
이런 기능을 사용하기 위해서는 일단 nltk package를 다운받아야 합니다.
예전에 패키지를 다운받아놓고 위치를 까먹어서 nltk.download()의 c 옵션으로 corpus 위치를 확인합니다.
>>> import nltk
>>> nltk.download()
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Downloader> c
Data Server:
- URL: <https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml>
- 3 Package Collections Available
- 108 Individual Packages Available
Local Machine:
- Data directory: /root/nltk_data
---------------------------------------------------------------------------
s) Show Config u) Set Server URL d) Set Data Dir m) Main Menu
---------------------------------------------------------------------------
Config>
확인된 위치에 가서 stopwords 리스트를 확인합니다.
~/nltk_data/corpora/stopwords# ll
total 72
drwxr-xr-x 2 root root 4096 2월 28 22:29 ./
drwxr-xr-x 73 root root 4096 2월 28 23:02 ../
-rw-r--r-- 1 root root 424 2월 28 22:29 danish
-rw-r--r-- 1 root root 453 2월 28 22:29 dutch
-rw-r--r-- 1 root root 743 2월 28 22:29 english
-rw-r--r-- 1 root root 1579 2월 28 22:29 finnish
-rw-r--r-- 1 root root 805 2월 28 22:29 french
-rw-r--r-- 1 root root 1357 2월 28 22:29 german
-rw-r--r-- 1 root root 1227 2월 28 22:29 hungarian
-rw-r--r-- 1 root root 1654 2월 28 22:29 italian
-rw-r--r-- 1 root root 3880 2월 28 22:29 kazakh
-rw-r--r-- 1 root root 851 2월 28 22:29 norwegian
-rw-r--r-- 1 root root 1267 2월 28 22:29 portuguese
-rw-r--r-- 1 root root 521 2월 28 22:29 README
-rw-r--r-- 1 root root 1235 2월 28 22:29 russian
-rw-r--r-- 1 root root 2178 2월 28 22:29 spanish
-rw-r--r-- 1 root root 559 2월 28 22:29 swedish
-rw-r--r-- 1 root root 260 2월 28 22:29 turkish
???????????????
한국어 stopwords 리스트가 없습니다.
한국어 문서 처리를 하려고 했는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ큐ㅠㅠㅠㅠㅠㅠ
i
me
my
myself
we
our
ours
ourselves
you
your
yours
yourself
yourselves
he
him
his
himself
she
her
hers
herself
it
its
itself
they
them
their
theirs
아쉬운 대로 영어 stopwords를 참고해서 만들어서 github에 업데이트 해놨으니
필요하신 분들은 참고하세요.
728x90반응형'프로그래밍 > 자연어처리' 카테고리의 다른 글
한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기 (0) 2017.09.11 구글 syntaxnet 시작하기 (0) 2017.08.24 뉴스 크롤링 (0) 2017.07.02 오픈소스 word2vec-api 사용 후기 (0) 2017.06.28 한국어형태소 분석기 mecab 태그셋 (0) 2017.04.14