한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기






한국어 뉴스 데이터로 딥러닝 시작하기 



6. doc2vec으로 문사 유사도 측정하기 



과거 관련 포스팅 리스트 


1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기

4. doc2vec 모델 훈련하기

5. 한국어 word2vec 데모 만들기



최근에 관심이 있는 프로젝트에서 

부동산 관련 뉴스들만 자동으로 필터링 해야 하는데  

doc2vec에서 있는 n_similarity 함수 기능이 생각나서 간만에 

doc2vec API 문서 로 가보았습니다. 






 


???? 

Deprecated 되고 다른 모듈로 기능이 옮겨졌네요 ㅠㅠ

 넘 간만에 doc2vec을 사용했더니 ㄷㄷ


새로운 함수 설명으로 이동해봅니다. 




https://github.com/RaRe-Technologies/gensim/blob/master/gensim/test/test_doc2vec.py



관련 질의 에서 가져온 자세한 함수 설명 은 아래와 같습니다. 


def n_similarity(self, ds1, ds2):
        v1 
= [self[doc] for doc in ds1]
        v2 
= [self[doc] for doc in ds2]
        
return dot(matutils.unitvec(array(v1).mean(axis=0)), matutils.unitvec(array(v2).mean(axis=0)))



The 1st number, using model.n_similarity(), may be interesting for other reasons. It operates on model directly, whose comparison methods are all inherited from class Word2Vec. So, it actually uses only word-vectors. It averages together the vectors in each word-list, unit-normalizes them, then takes their cosine-similarity. This average-of-words document-vector is also often useful, but isn't what's calculated by PV-Doc2Vec.

 

n_similarity 계산법 


단어 리스트에 있는 모든 단어 벡터의 mean을 계산

 -> unit-normalzation -> cosine-similary 계산하기 



블로그에 있던 예시: 


Set A: (two words)

Vector A1 (-1,0,1)

Vector A2 (0,1,1)


Set B: (one word)

Vector B1 (-0.5,0.5,1)


mean of A1 and A2: A3 = (-0.5,0.5,1)


= > Cosine Distance of A3 and B1: dot(A3,B1) = 1




요약하면 n_similarity 함수는 word2vec 클래스에서 파생되어 

단어 셋에 있는 단어들의 유사도는 비교할 수는 있으나 

문서 벡터의 유사도를 비교하는 것은 아니네요. 

그래도 간접적으로 문서의 유사도를

단어 단위로 판단하는  지표는 될 것 같습니다. 


일단 지금은 이 함수 한번 써보고 

model.docvecs.similarity_unseen_docs 함수도 써봐서 

결과를 비교해봐야겠습니다. 





참고로 해당 기능은 word2vec/ doc2vec 데모 사이트에 추가 되었습니다. 

(http://stockprediction.co.kr/word2vec/)


두 문장을 입력하면 mecab으로 형태소 분석을 한 후 n_similarity 함수를 사용합니다. 



아래는 관련 예시들입니다. 



가장 단어가 유사한 예시 





역사(장소 언급) vs 부동산






역사(장소 언급) vs 주식 




그래도 그럭저럭 결과가 나오는 것 같네요. 


관련 코드들 역시 github에 commit해 두었으니 

참고하세요 



doc2vec-api github 바로가기 







한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기








한국어 뉴스 데이터로 딥러닝 시작하기 



5. 한국어 word2vec 데모 만들기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기

4. doc2vec 모델 훈련하기





아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 

doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 

한국어 word2vec 데모 페이지를 만들었습니다. 


한국어 word2vec 데모 이동하기 



위키 뉴스와 경제 신문으로 훈련을 시켰고 

데모 사이트는 flask 를 사용하여 제작했습니다. 

(참고사이트 바로가기https://github.com/3Top/word2vec-api)



현재 지원하는 기능은 단어를 입력하면 

벡터 공간에서 제일 가까이 있는 (제일 유사한) 단어들을 보여주는 것입니다. 











그 외 word2vec 함수들과 디자인은 향후 개선 예정이며 

doc2vec 데모 사이트도 이어서 만들어볼 생각입니다 ㅋ





참고로 이 데모 사이트에서 사용한 한국어 word2vec web embedding api는 

아래 github에서 다운로드 가능합니다. 


doc2vec-api github 바로가기





# install dependencies

pip2 install -r requirements.txt



# word2vec web api 서비스 시작하기  

python /home/stock/public_html/word2vec/word2vec-api.py --model wiki_dmpv_100_no_taginfo_user_dic_word2vec_format.bin --binary BINARY --path /word2vec --host 0.0.0.0 --port 4000



# Example call

curl http://127.0.0.1:4000/word2vec/most_similar?positive=무증

["\uac10\uc790", "\u318d\ubb34\uc0c1\uc99d\uc790", "\uc720\uc99d", "\ucc44\ubb34\uc778\uc218", "\ubb34\uc704\ubc95", "\ud589\uc815\uccad", "\uc6cc\ud06c\uc544\uc6c3", "\ub9e4\ub3c4\uc778", "\ubc30\uc218\uc9c4", "\uc785\ubc95\uad8c"]












한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기





한국어 뉴스 데이터로 딥러닝 시작하기 



4. doc2vec 모델 훈련하기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기




word2vec이나 doc2vec을 사용하기 위해서는 gensim 패키지를 설치해야한다. 

gensim은 topic modeling 관련 corpus 및 알고리즘들이 포함되어 있는 파이썬 패키지이다. 



아래 gensim 설치 페이지를 참고해서 gensim을 설치하자. 


gensim 설치 페이지 바로가기 



아래는 doc2vec 관련 사이트들이다. 

특히 doc2vec 사용 예제 스크립트는 정말 유용하니 doc2vec 사용시 참고하면 좋을 것이다. 


doc2vec API 

 https://radimrehurek.com/gensim/models/doc2vec.html


doc2vec github

 https://github.com/RaRe-Technologies/gensim/tree/develop/gensim/models


 https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb



아래는 doc2vec model 훈련 스크립트이다.  




#-*- coding: utf-8 -*-


from gensim.models import doc2vec

import sys

import multiprocessing



reload(sys)

sys.setdefaultencoding('utf-8')


cores = multiprocessing.cpu_count()


#doc2vec parameters

vector_size = 300

window_size = 15

word_min_count = 2

sampling_threshold = 1e-5

negative_size = 5

train_epoch = 100

dm = 1 #0 = dbow; 1 = dmpv

worker_count = cores #number of parallel processes


print len(sys.argv)

if len(sys.argv) >= 3:

inputfile = sys.argv[1]

modelfile = sys.argv[2]

else:

inputfile = "./data/sample.txt"

modelfile = "./model/doc2vec.model"


word2vec_file = modelfile + ".word2vec_format"


sentences=doc2vec.TaggedLineDocument(inputfile)

#build voca 

doc_vectorizer = doc2vec.Doc2Vec(min_count=word_min_count, size=vector_size, alpha=0.025, min_alpha=0.025, seed=1234, workers=worker_count)

doc_vectorizer.build_vocab(sentences)


# Train document vectors!

for epoch in range(10):

doc_vectorizer.train(sentences)

doc_vectorizer.alpha -= 0.002 # decrease the learning rate

doc_vectorizer.min_alpha = doc_vectorizer.alpha # fix the learning rate, no decay


# To save

doc_vectorizer.save(modelfile)

doc_vectorizer.save_word2vec_format(word2vec_file, binary=False)






생성한 모델 파일을 로딩해서 간단하게 테스트를 해보자. 




>>> import gensim
>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')

>>> model = gensim.models.Doc2Vec.load("/home/wiki/stock/model/wiki_pos_tokenizer_without_taginfo.model")


>>> pprint(model.most_similar(u'정조', topn=20))
[(영조, 0.7687888741493225),
 (세조, 0.7312556505203247),
 (성종, 0.7187798023223877),
 (선조, 0.6738545894622803),
 (고종, 0.6698656678199768),
 (명종, 0.668306827545166),
 (숙종, 0.6636559367179871),
 (순조, 0.6635199189186096),
 (중종, 0.6620699167251587),
 (철종, 0.6494218707084656),
 (현종, 0.6376042366027832),
 (공민왕, 0.6369210481643677),
 (충렬왕, 0.6366174817085266),
 (헌종, 0.6334968209266663),
 (효종, 0.6176850199699402),
 (게이초, 0.6152774095535278),
 (인조, 0.611142635345459),
 (겐로쿠, 0.6079166531562805),
 (광해군, 0.6072803139686584),
 (태종, 0.6041624546051025)]





결과는 그럴듯하다. 
다음은 그 유명한 왕 - 남자 + 여자 = 여왕 이 제대로 나오나 확인해보겠다. 


v(KING) – v(MAN) + v(WOMAN) = v(QUEEN) 







>>> pprint(model.most_similar(positive=[u'여자', u'왕'], negative=[u'남자']))
[(추기경, 0.45528921484947205),
 (동상, 0.451805979013443),
 (방언, 0.44704046845436096),
 (국왕, 0.4468614459037781),
 (성품, 0.44469308853149414),
 (패러다임, 0.43862420320510864),
 (총독, 0.4380437433719635),
 (도장, 0.43768829107284546),
 (연합군, 0.4367105960845947),
 (감독, 0.42979687452316284)]




여왕이라고 딱 나와주면 좋을 것 같은데 나오지 않았다 -_-!

혹시 해서 vector를 1000개로 테스트하니 그제서야 여왕이 결과에 포함되었다. 
당연한 이야기겠지만 벡터의 개수가 생성된 벡터 스페이스의 결과에 영향을 주는것을 확인하였다 -_-!



>>> pprint(model.most_similar(positive=[u'여자', u'왕'], negative=[u'남자']))
[(국왕, 0.34298175573349),
 (왕인, 0.2681395709514618),
 (초등, 0.2596897780895233),
 (여왕, 0.2578367292881012),
 (성당, 0.23974566161632538),
 (군, 0.23846948146820068),
 (의원, 0.23629550635814667),
 (출신, 0.233859583735466),
 (감독, 0.2312195748090744),
 (도서관, 0.23090218007564545)]











참고로 위 코드들 및 기훈련된 doc2vec model 파일들은 아래 github에 올려두었다. 
앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


 https://github.com/roboreport/doc2vec-api/










참고: http://textminingonline.com/training-word2vec-model-on-english-wikipedia-by-gensim


  • 2017.03.09 19:56 ADDR 수정/삭제 답글

    비밀댓글입니다

  • smilemango 2017.07.04 11:55 ADDR 수정/삭제 답글

    doc2vec에 데이터 입력할때 아티클별로 파일을 쪼개지 않아도 되나요?
    이렇게 집어넣으면 word2vec을 돌린 효과만 볼 수 있는거 아닌지요?

    • adana 2017.07.06 16:25 신고 수정/삭제

      안녕하세요. gensim api에서 taggedLineDocument 함수는 문서 하나를 하나의 라인으로 된 파일을 입력으로 받고 있습니다. 그래서 한국어 위키도 각각의 문서(또는 패시지)를 하나의 라인으로 해서 전체 위키를 하나의 파일로 만들어서 입력 파일로 사용했습니다. 뭔가 잘못된 부분이 있으면 다시 알려주시면 감사하겠습니다 ^^

      class gensim.models.doc2vec.TaggedLineDocument(source)
      Bases: object

      Simple format: one document = one line = one TaggedDocument object.

      Words are expected to be already preprocessed and separated by whitespace, tags are constructed automatically from the document line number.

      source can be either a string (filename) or a file object.

한국어 뉴스 데이터로 딥러닝 시작하기 - 1. 한국어 위키피디아 덤프 다운로드 받기



한국어 뉴스 데이터로 딥러닝 시작하기 



뉴스 데이터를 이용하여 간단하게 딥러닝 알고리즘으로 

classification 하는 과제를 수행해보고자 한다. 


 자연어를 처리하기 위해서는 단어나 문서를 vector로 변환을 해야 하는데

이러한 변환 과정을 word embedding이라고 한다. 


최근 deep learning에서는 word embedding을 위해서

 word2vec, doc2vec 모델을 주로 사용하기 때문에 

doc2vec 모델로 진행해보려고 한다. 




1. training data 수집 





doc2vec model 훈련을 위해서는 형태소 태깅된 데이터가 필요하다. 

일단 한국어 위키를 다운받아 형태소 태깅을 진행하려고 한다. 


위키피디아는 정기적으로 덤프 파일로 릴리즈 한다. 

언어마다 릴리즈 주기가 다르긴 하지만 

한국어 덤프 파일은 한달에 한두번 릴리즈되고 있으니 참고하자.  



한국어 위키 덤프 다운로드 사이트 바로가기


https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4_%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C




덤프 사이트에 직접 접속하려면 아래 주소로 가면 날짜별로 디렉토리가 있고 
그 안에 덤프 파일들이 있다. 

https://dumps.wikimedia.org/kowiki/



덤프 파일들 종류는 아래와 같다. 


pages-articles.xml.bz2

 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.

pages-current.xml.bz2 - 모든 문서의 최신 버전이 묶여 있습니다.

pages-full.xml.bz2/7z - 모든 문서(토론 포함)의 최신 버전이 묶여 있습니다.

pages-meta-history.xml.bz2 - 모든 문서의 모든 편집 내역이 묶여 있습니다.

abstract.xml.gz - 문서 요약을 묶어놓았습니다.

all_titles_in_ns0.gz - 문서 제목만을 묶어놓았습니다.





최신 버전의 문서만 필요하니 pages-articles.xml.bz2를 다운받는다. 

 
# wget "https://dumps.wikimedia.org/kowiki/20161201/kowiki-20161201-pages-articles.xml.bz2"
--2016-12-07 15:42:15--  https://dumps.wikimedia.org/kowiki/20161201/kowiki-20161201-pages-articles.xml.bz2
Resolving dumps.wikimedia.org (dumps.wikimedia.org)... 208.80.154.11, 2620:0:861:1:208:80:154:11
Connecting to dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.11|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 473196956 (451M) [application/octet-stream]
Saving to: ‘kowiki-20161201-pages-articles.xml.bz2’

100%[=====================================================================================================================================>] 473,196,956 1.93MB/s   in 3m 58s

2016-12-07 15:46:19 (1.90 MB/s) - ‘kowiki-20161201-pages-articles.xml.bz2’ saved [473196956/473196956]





위키 데이터는 xml로 되어 있기 때문에 

이 안에서 본문만 추출하기 위해서는 parsing이 필요하다. 

다음 포스팅에서는 위키 데이터 파싱하는 법을 이어서 설명하겠다. 




참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다. 

앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


github 바로가기 


 https://github.com/roboreport/doc2vec-api/












  • xtalxlr 2019.02.18 15:25 ADDR 수정/삭제 답글

    doc2vec을 쓸 일이 있었는데 글이 도움이 많이 되었습니다. 감사합니다!

    • adana 2019.04.12 11:51 신고 수정/삭제

      도움이 되었다니 다행이네요. 좋은 하루 되세요 : )