-
자연어처리 관련 오픈소스 정리프로그래밍/자연어처리 2017. 12. 16. 18:38728x90반응형
자연어처리 관련 오픈소스 정리
1. koNLPy (한국어, python)
: 한국어 정보 처리를 위한 파이썬 패키지
말뭉치, 사전과 한국어 형태소들을 제공하고 있다.
데이터(말뭉치) - 한국법률 말뭉치, 대한민국 국회 의안 말뭉치
사전 - Hannanum 시스템 사전, Kkma 시스템 사전, Mecab 시스템 사전
형태소 분석기도 다양한 클래스를 제공하고 있는데
형태소 분석기 사용 비교도 참고할 만하다.
비교 자료로는 로딩/실행 시간과 몇 개의 사용 예제가 제공되고 있다.
(형태소 태깅 정확도 정보가 없는 것은 아쉽다(...))
http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#comparison-between-pos-tagging-classes
2. NLTK (자연어처리 패키지, 주로 영어 지원)
자연어 처리에 관한 방대한 리소스, 코드 들을 구할 수 있다.
영어 컨텐츠를 사용한다면 꼭 사용해봐야 할 패키지이다.
3. twitter tokenizer (한국어 tokenizer)
https://github.com/twitter/twitter-korean-text
4. gensim (word2vec, doc2vec)
python 3 porting of gensim library : https://github.com/samantp/gensimPy3
5. word2vec-api (영어)
: Simple web service providing a word embedding API
github 바로가기
https://github.com/keonkim/awesome-nlp
6. doc2vec (영어)
https://github.com/jhlau/doc2vec
7. word2vec, doc2vec (한글)
한국어 word2vec, doc2vec 기훈련된 모델 및 데모 사이트 운영
728x90반응형'프로그래밍 > 자연어처리' 카테고리의 다른 글
카카오톡 플러스친구 스마트채팅 API 개발하기 - 2. 환경 설정하기 (3) 2018.03.27 dialogflow로 chatbot 만들기 - (1) entity 생성 (0) 2017.12.31 chatbot 만들기 - ( 0) 어떤 chatbot framework를 사용할 것인가? (0) 2017.10.29 한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기 (0) 2017.09.11 구글 syntaxnet 시작하기 (0) 2017.08.24