자연어처리
-
자연어처리 관련 오픈소스 정리프로그래밍/자연어처리 2017. 12. 16. 18:38
자연어처리 관련 오픈소스 정리 1. koNLPy (한국어, python) : 한국어 정보 처리를 위한 파이썬 패키지말뭉치, 사전과 한국어 형태소들을 제공하고 있다. 홈페이지 바로가기 github 바로가기 데이터(말뭉치) - 한국법률 말뭉치, 대한민국 국회 의안 말뭉치 사전 - Hannanum 시스템 사전, Kkma 시스템 사전, Mecab 시스템 사전 형태소 분석기도 다양한 클래스를 제공하고 있는데 형태소 분석기 사용 비교도 참고할 만하다. 비교 자료로는 로딩/실행 시간과 몇 개의 사용 예제가 제공되고 있다. (형태소 태깅 정확도 정보가 없는 것은 아쉽다(...)) http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#comparison-between-pos-taggin..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05
한국어 뉴스 데이터로 딥러닝 시작하기 5. 한국어 word2vec 데모 만들기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기 아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 한국어 word2vec 데모 페이지를 만들었습니다. 한국어 word2vec 데모 이동하기 위키 뉴스와 경제 신문으로 훈련을 시켰고 데모 사이트는 flask 를 사용하여 제작했습니다. (참고사이트 바로가기: https://github.com/3Top/word2vec-api) 현재 지원하는 기능은 단어를 입력하면 벡터 공간에서 제일 가까이 ..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기프로그래밍/자연어처리 2017. 3. 3. 13:42
한국어 뉴스 데이터로 딥러닝 시작하기 4. doc2vec 모델 훈련하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기 word2vec이나 doc2vec을 사용하기 위해서는 gensim 패키지를 설치해야한다. gensim은 topic modeling 관련 corpus 및 알고리즘들이 포함되어 있는 파이썬 패키지이다. 아래 gensim 설치 페이지를 참고해서 gensim을 설치하자. gensim 설치 페이지 바로가기 아래는 doc2vec 관련 사이트들이다. 특히 doc2vec 사용 예제 스크립트는 정말 유용하니 doc2vec 사용시 참고하면 좋을 것이다. doc2vec API https://radimrehurek.com..