프로그래밍/자연어처리

자연어처리 관련 오픈소스 정리

kugancity 2017. 12. 16. 18:38
반응형




자연어처리 관련 오픈소스 정리 



1.  koNLPy (한국어, python)

 :  한국어 정보 처리를 위한 파이썬 패키지

말뭉치, 사전과 한국어 형태소들을 제공하고 있다. 


홈페이지 바로가기 


github 바로가기 





데이터(말뭉치) - 한국법률 말뭉치, 대한민국 국회 의안 말뭉치 

사전 - Hannanum 시스템 사전, Kkma 시스템 사전, Mecab 시스템 사전 


형태소 분석기도 다양한 클래스를 제공하고 있는데  

형태소 분석기 사용 비교도 참고할 만하다. 

비교 자료로는 로딩/실행 시간과 몇 개의 사용 예제가 제공되고 있다. 

(형태소 태깅 정확도 정보가 없는 것은 아쉽다(...)) 


http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#comparison-between-pos-tagging-classes





2. NLTK  (자연어처리 패키지, 주로 영어 지원) 


자연어 처리에 관한 방대한 리소스, 코드 들을 구할 수 있다. 

영어 컨텐츠를 사용한다면 꼭 사용해봐야 할 패키지이다. 


github 바로가기





3. twitter tokenizer  (한국어 tokenizer) 


https://github.com/twitter/twitter-korean-text



4. gensim (word2vec, doc2vec) 


python 3 porting of gensim library : https://github.com/samantp/gensimPy3



5. word2vec-api (영어) 

: Simple web service providing a word embedding API



github 바로가기





https://github.com/keonkim/awesome-nlp


6. doc2vec (영어) 


https://github.com/jhlau/doc2vec



7. word2vec, doc2vec (한글)



한국어 word2vec, doc2vec 기훈련된 모델 및 데모 사이트 운영



github 바로가기





728x90
반응형