-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05728x90반응형
한국어 뉴스 데이터로 딥러닝 시작하기
5. 한국어 word2vec 데모 만들기
아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨
doc2vec model (word2vec 포멧으로 저장버전)을 이용해서
한국어 word2vec 데모 페이지를 만들었습니다.
위키 뉴스와 경제 신문으로 훈련을 시켰고
데모 사이트는 flask 를 사용하여 제작했습니다.
(참고사이트 바로가기: https://github.com/3Top/word2vec-api)
현재 지원하는 기능은 단어를 입력하면
벡터 공간에서 제일 가까이 있는 (제일 유사한) 단어들을 보여주는 것입니다.
그 외 word2vec 함수들과 디자인은 향후 개선 예정이며
doc2vec 데모 사이트도 이어서 만들어볼 생각입니다 ㅋ
참고로 이 데모 사이트에서 사용한 한국어 word2vec web embedding api는
아래 github에서 다운로드 가능합니다.
# install dependencies
pip2 install -r requirements.txt
# word2vec web api 서비스 시작하기
python /home/stock/public_html/word2vec/word2vec-api.py --model wiki_dmpv_100_no_taginfo_user_dic_word2vec_format.bin --binary BINARY --path /word2vec --host 0.0.0.0 --port 4000
# Example call
curl http://127.0.0.1:4000/word2vec/most_similar?positive=무증
["\uac10\uc790", "\u318d\ubb34\uc0c1\uc99d\uc790", "\uc720\uc99d", "\ucc44\ubb34\uc778\uc218", "\ubb34\uc704\ubc95", "\ud589\uc815\uccad", "\uc6cc\ud06c\uc544\uc6c3", "\ub9e4\ub3c4\uc778", "\ubc30\uc218\uc9c4", "\uc785\ubc95\uad8c"]
728x90반응형'프로그래밍 > 자연어처리' 카테고리의 다른 글
오픈소스 word2vec-api 사용 후기 (0) 2017.06.28 한국어형태소 분석기 mecab 태그셋 (0) 2017.04.14 weka 메모리 사이즈 증가하기 ( Java heap space 오류 관련) (0) 2017.04.02 자연어처리 오픈소스 프로젝트 시작하기 (0) 2017.03.10 한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기 (3) 2017.03.03