한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기








한국어 뉴스 데이터로 딥러닝 시작하기 



5. 한국어 word2vec 데모 만들기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기

4. doc2vec 모델 훈련하기





아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 

doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 

한국어 word2vec 데모 페이지를 만들었습니다. 


한국어 word2vec 데모 이동하기 



위키 뉴스와 경제 신문으로 훈련을 시켰고 

데모 사이트는 flask 를 사용하여 제작했습니다. 

(참고사이트 바로가기https://github.com/3Top/word2vec-api)



현재 지원하는 기능은 단어를 입력하면 

벡터 공간에서 제일 가까이 있는 (제일 유사한) 단어들을 보여주는 것입니다. 











그 외 word2vec 함수들과 디자인은 향후 개선 예정이며 

doc2vec 데모 사이트도 이어서 만들어볼 생각입니다 ㅋ





참고로 이 데모 사이트에서 사용한 한국어 word2vec web embedding api는 

아래 github에서 다운로드 가능합니다. 


doc2vec-api github 바로가기





# install dependencies

pip2 install -r requirements.txt



# word2vec web api 서비스 시작하기  

python /home/stock/public_html/word2vec/word2vec-api.py --model wiki_dmpv_100_no_taginfo_user_dic_word2vec_format.bin --binary BINARY --path /word2vec --host 0.0.0.0 --port 4000



# Example call

curl http://127.0.0.1:4000/word2vec/most_similar?positive=무증

["\uac10\uc790", "\u318d\ubb34\uc0c1\uc99d\uc790", "\uc720\uc99d", "\ucc44\ubb34\uc778\uc218", "\ubb34\uc704\ubc95", "\ud589\uc815\uccad", "\uc6cc\ud06c\uc544\uc6c3", "\ub9e4\ub3c4\uc778", "\ubc30\uc218\uc9c4", "\uc785\ubc95\uad8c"]