word2vec
-
fasttext 사용하여 임베딩 하기프로그래밍/자연어처리 2022. 9. 24. 16:14
word embedding으로 word2vec을 주로 사용하다 fasttext가 괜찮다고 해서 사용해 보았다. word embedding은 비정형화된 text를 숫자로 바꿔주는 방법으로 텍스트를 기계 학습에 사용하기 위해서는 word embedding 과정을 거쳐야한다. word2vec은 희소한 단어를 임베딩 하기 어렵고 out-of-vocabulary(oov)를 처리하기 어렵다는 단점이 있었는데 fasttext는 단어 단위가 아니라 n-gram을 임베딩함으로써 각 단어는 embedding된 n-gram의 합으로 나타나서 빠르고 좋은 성능을 가진다고 한다. 그리고 oov 문제도 없다고 한다. fasttext 설치하기 리눅스(ubuntu) 기준으로 아래와 같이 설치를 하였다. root# git clone ..
-
한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기프로그래밍/자연어처리 2017. 9. 11. 18:05
한국어 뉴스 데이터로 딥러닝 시작하기 6. doc2vec으로 문사 유사도 측정하기 과거 관련 포스팅 리스트 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기5. 한국어 word2vec 데모 만들기 최근에 관심이 있는 프로젝트에서 부동산 관련 뉴스들만 자동으로 필터링 해야 하는데 doc2vec에서 있는 n_similarity 함수 기능이 생각나서 간만에 doc2vec API 문서 로 가보았습니다. ???? Deprecated 되고 다른 모듈로 기능이 옮겨졌네요 ㅠㅠ 넘 간만에 doc2vec을 사용했더니 ㄷㄷ 새로운 함수 설명으로 이동해봅니다. https://github.com/RaRe-Te..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05
한국어 뉴스 데이터로 딥러닝 시작하기 5. 한국어 word2vec 데모 만들기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기 아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 한국어 word2vec 데모 페이지를 만들었습니다. 한국어 word2vec 데모 이동하기 위키 뉴스와 경제 신문으로 훈련을 시켰고 데모 사이트는 flask 를 사용하여 제작했습니다. (참고사이트 바로가기: https://github.com/3Top/word2vec-api) 현재 지원하는 기능은 단어를 입력하면 벡터 공간에서 제일 가까이 ..