프로그래밍/자연어처리
-
구글 syntaxnet 시작하기프로그래밍/자연어처리 2017. 8. 24. 02:17
syntaxnet github 바로가기 syntaxnet 설치 가이드 바로가기 syntaxnet을 시작하기 이전에 설치해야 되는 프로그램이 넘 많다;그래도 하나씩 해보자. 1. python 2.7 - 이미 깔려있음 2. bazel : 설치방법 링크 바젤은 구글에서 사용하는 빌드 도구입니다. 코드양이 아주 방대하거나 여러가지 언어를 사용하는 컴파일하거나, 다양한 플랫폼에 설치해야 하는 프로젝트일 경우 유용한 빌드 툴이라고 합니다. 좋은 빌드 툴이고 뭐고 선택의 여지가 없으니 일단 깔아봅시다. 다행히 문제 없이 잘 설치 됩니다. # 원래 bazel 설치시 sudo apt-get install openjdk-8-jdk 로 자바를 먼저 설치해야 한다는데 # Ubuntu 14.04일 경우 PPA를 사용 sudo ..
-
nltk 패키지로 불용어(stopwords) 제거하기프로그래밍/자연어처리 2017. 7. 6. 15:57
불용어(stopwords)는 관사(a, an, the), 전치사(of, on, for), 대명사(it, he, her)와 같이 자연어 처리를 하면서 개별 단어 단위로 처리되지 않는 일반적인 단어입니다. nltk는 이런 불용어(stopwords)를 간단히 제거할 수 있는 기능을 제공하고 있습니다. 이런 기능을 사용하기 위해서는 일단 nltk package를 다운받아야 합니다. 예전에 패키지를 다운받아놓고 위치를 까먹어서 nltk.download()의 c 옵션으로 corpus 위치를 확인합니다. >>> import nltk>>> nltk.download() --------------------------------------------------------------------------- d) Downlo..