doc2vec
-
한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기프로그래밍/자연어처리 2017. 9. 11. 18:05
한국어 뉴스 데이터로 딥러닝 시작하기 6. doc2vec으로 문사 유사도 측정하기 과거 관련 포스팅 리스트 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기5. 한국어 word2vec 데모 만들기 최근에 관심이 있는 프로젝트에서 부동산 관련 뉴스들만 자동으로 필터링 해야 하는데 doc2vec에서 있는 n_similarity 함수 기능이 생각나서 간만에 doc2vec API 문서 로 가보았습니다. ???? Deprecated 되고 다른 모듈로 기능이 옮겨졌네요 ㅠㅠ 넘 간만에 doc2vec을 사용했더니 ㄷㄷ 새로운 함수 설명으로 이동해봅니다. https://github.com/RaRe-Te..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05
한국어 뉴스 데이터로 딥러닝 시작하기 5. 한국어 word2vec 데모 만들기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기 아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 한국어 word2vec 데모 페이지를 만들었습니다. 한국어 word2vec 데모 이동하기 위키 뉴스와 경제 신문으로 훈련을 시켰고 데모 사이트는 flask 를 사용하여 제작했습니다. (참고사이트 바로가기: https://github.com/3Top/word2vec-api) 현재 지원하는 기능은 단어를 입력하면 벡터 공간에서 제일 가까이 ..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기프로그래밍/자연어처리 2017. 3. 3. 13:42
한국어 뉴스 데이터로 딥러닝 시작하기 4. doc2vec 모델 훈련하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기 word2vec이나 doc2vec을 사용하기 위해서는 gensim 패키지를 설치해야한다. gensim은 topic modeling 관련 corpus 및 알고리즘들이 포함되어 있는 파이썬 패키지이다. 아래 gensim 설치 페이지를 참고해서 gensim을 설치하자. gensim 설치 페이지 바로가기 아래는 doc2vec 관련 사이트들이다. 특히 doc2vec 사용 예제 스크립트는 정말 유용하니 doc2vec 사용시 참고하면 좋을 것이다. doc2vec API https://radimrehurek.com..