프로그래밍/자연어처리
-
nltk 패키지로 불용어(stopwords) 제거하기프로그래밍/자연어처리 2017. 7. 6. 15:57
불용어(stopwords)는 관사(a, an, the), 전치사(of, on, for), 대명사(it, he, her)와 같이 자연어 처리를 하면서 개별 단어 단위로 처리되지 않는 일반적인 단어입니다. nltk는 이런 불용어(stopwords)를 간단히 제거할 수 있는 기능을 제공하고 있습니다. 이런 기능을 사용하기 위해서는 일단 nltk package를 다운받아야 합니다. 예전에 패키지를 다운받아놓고 위치를 까먹어서 nltk.download()의 c 옵션으로 corpus 위치를 확인합니다. >>> import nltk>>> nltk.download() --------------------------------------------------------------------------- d) Downlo..
-
오픈소스 word2vec-api 사용 후기프로그래밍/자연어처리 2017. 6. 28. 21:29
GitHub 바로가기 모델 로딩하기 /home/wiki/word2vec-api# python word2vec-api.py --model GoogleNews-vectors-negative300.bin --binary BINARY --path /word2vec --host 0.0.0.0 --port 5000ERROR (theano.sandbox.cuda): nvcc compiler not found on $PATH. Check your nvcc installation and try again. 단어와 단어 사이의 유사도 구하기 curl "http://127.0.0.1:5000/word2vec/similarity?w1=Sushi&w2=Japanese"0.33475740674630033 가장 비슷한 단어들 구하..