자연어처리 관련 오픈소스 정리




자연어처리 관련 오픈소스 정리 



1.  koNLPy (한국어, python)

 :  한국어 정보 처리를 위한 파이썬 패키지

말뭉치, 사전과 한국어 형태소들을 제공하고 있다. 


홈페이지 바로가기 


github 바로가기 





데이터(말뭉치) - 한국법률 말뭉치, 대한민국 국회 의안 말뭉치 

사전 - Hannanum 시스템 사전, Kkma 시스템 사전, Mecab 시스템 사전 


형태소 분석기도 다양한 클래스를 제공하고 있는데  

형태소 분석기 사용 비교도 참고할 만하다. 

비교 자료로는 로딩/실행 시간과 몇 개의 사용 예제가 제공되고 있다. 

(형태소 태깅 정확도 정보가 없는 것은 아쉽다(...)) 


http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#comparison-between-pos-tagging-classes





2. NLTK  (자연어처리 패키지, 주로 영어 지원) 


자연어 처리에 관한 방대한 리소스, 코드 들을 구할 수 있다. 

영어 컨텐츠를 사용한다면 꼭 사용해봐야 할 패키지이다. 


github 바로가기





3. twitter tokenizer  (한국어 tokenizer) 


https://github.com/twitter/twitter-korean-text



4. gensim (word2vec, doc2vec) 


python 3 porting of gensim library : https://github.com/samantp/gensimPy3



5. word2vec-api (영어) 

: Simple web service providing a word embedding API



github 바로가기





https://github.com/keonkim/awesome-nlp


6. doc2vec (영어) 


https://github.com/jhlau/doc2vec



7. word2vec, doc2vec (한글)



한국어 word2vec, doc2vec 기훈련된 모델 및 데모 사이트 운영



github 바로가기





한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기








한국어 뉴스 데이터로 딥러닝 시작하기 



5. 한국어 word2vec 데모 만들기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기

4. doc2vec 모델 훈련하기





아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 

doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 

한국어 word2vec 데모 페이지를 만들었습니다. 


한국어 word2vec 데모 이동하기 



위키 뉴스와 경제 신문으로 훈련을 시켰고 

데모 사이트는 flask 를 사용하여 제작했습니다. 

(참고사이트 바로가기https://github.com/3Top/word2vec-api)



현재 지원하는 기능은 단어를 입력하면 

벡터 공간에서 제일 가까이 있는 (제일 유사한) 단어들을 보여주는 것입니다. 











그 외 word2vec 함수들과 디자인은 향후 개선 예정이며 

doc2vec 데모 사이트도 이어서 만들어볼 생각입니다 ㅋ





참고로 이 데모 사이트에서 사용한 한국어 word2vec web embedding api는 

아래 github에서 다운로드 가능합니다. 


doc2vec-api github 바로가기





# install dependencies

pip2 install -r requirements.txt



# word2vec web api 서비스 시작하기  

python /home/stock/public_html/word2vec/word2vec-api.py --model wiki_dmpv_100_no_taginfo_user_dic_word2vec_format.bin --binary BINARY --path /word2vec --host 0.0.0.0 --port 4000



# Example call

curl http://127.0.0.1:4000/word2vec/most_similar?positive=무증

["\uac10\uc790", "\u318d\ubb34\uc0c1\uc99d\uc790", "\uc720\uc99d", "\ucc44\ubb34\uc778\uc218", "\ubb34\uc704\ubc95", "\ud589\uc815\uccad", "\uc6cc\ud06c\uc544\uc6c3", "\ub9e4\ub3c4\uc778", "\ubc30\uc218\uc9c4", "\uc785\ubc95\uad8c"]












한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기





한국어 뉴스 데이터로 딥러닝 시작하기 



4. doc2vec 모델 훈련하기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기

3. 위키 데이터 한국어 형태소 태깅하기 바로가기




word2vec이나 doc2vec을 사용하기 위해서는 gensim 패키지를 설치해야한다. 

gensim은 topic modeling 관련 corpus 및 알고리즘들이 포함되어 있는 파이썬 패키지이다. 



아래 gensim 설치 페이지를 참고해서 gensim을 설치하자. 


gensim 설치 페이지 바로가기 



아래는 doc2vec 관련 사이트들이다. 

특히 doc2vec 사용 예제 스크립트는 정말 유용하니 doc2vec 사용시 참고하면 좋을 것이다. 


doc2vec API 

 https://radimrehurek.com/gensim/models/doc2vec.html


doc2vec github

 https://github.com/RaRe-Technologies/gensim/tree/develop/gensim/models


 https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb



아래는 doc2vec model 훈련 스크립트이다.  




#-*- coding: utf-8 -*-


from gensim.models import doc2vec

import sys

import multiprocessing



reload(sys)

sys.setdefaultencoding('utf-8')


cores = multiprocessing.cpu_count()


#doc2vec parameters

vector_size = 300

window_size = 15

word_min_count = 2

sampling_threshold = 1e-5

negative_size = 5

train_epoch = 100

dm = 1 #0 = dbow; 1 = dmpv

worker_count = cores #number of parallel processes


print len(sys.argv)

if len(sys.argv) >= 3:

inputfile = sys.argv[1]

modelfile = sys.argv[2]

else:

inputfile = "./data/sample.txt"

modelfile = "./model/doc2vec.model"


word2vec_file = modelfile + ".word2vec_format"


sentences=doc2vec.TaggedLineDocument(inputfile)

#build voca 

doc_vectorizer = doc2vec.Doc2Vec(min_count=word_min_count, size=vector_size, alpha=0.025, min_alpha=0.025, seed=1234, workers=worker_count)

doc_vectorizer.build_vocab(sentences)


# Train document vectors!

for epoch in range(10):

doc_vectorizer.train(sentences)

doc_vectorizer.alpha -= 0.002 # decrease the learning rate

doc_vectorizer.min_alpha = doc_vectorizer.alpha # fix the learning rate, no decay


# To save

doc_vectorizer.save(modelfile)

doc_vectorizer.save_word2vec_format(word2vec_file, binary=False)






생성한 모델 파일을 로딩해서 간단하게 테스트를 해보자. 




>>> import gensim
>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')

>>> model = gensim.models.Doc2Vec.load("/home/wiki/stock/model/wiki_pos_tokenizer_without_taginfo.model")


>>> pprint(model.most_similar(u'정조', topn=20))
[(영조, 0.7687888741493225),
 (세조, 0.7312556505203247),
 (성종, 0.7187798023223877),
 (선조, 0.6738545894622803),
 (고종, 0.6698656678199768),
 (명종, 0.668306827545166),
 (숙종, 0.6636559367179871),
 (순조, 0.6635199189186096),
 (중종, 0.6620699167251587),
 (철종, 0.6494218707084656),
 (현종, 0.6376042366027832),
 (공민왕, 0.6369210481643677),
 (충렬왕, 0.6366174817085266),
 (헌종, 0.6334968209266663),
 (효종, 0.6176850199699402),
 (게이초, 0.6152774095535278),
 (인조, 0.611142635345459),
 (겐로쿠, 0.6079166531562805),
 (광해군, 0.6072803139686584),
 (태종, 0.6041624546051025)]





결과는 그럴듯하다. 
다음은 그 유명한 왕 - 남자 + 여자 = 여왕 이 제대로 나오나 확인해보겠다. 


v(KING) – v(MAN) + v(WOMAN) = v(QUEEN) 







>>> pprint(model.most_similar(positive=[u'여자', u'왕'], negative=[u'남자']))
[(추기경, 0.45528921484947205),
 (동상, 0.451805979013443),
 (방언, 0.44704046845436096),
 (국왕, 0.4468614459037781),
 (성품, 0.44469308853149414),
 (패러다임, 0.43862420320510864),
 (총독, 0.4380437433719635),
 (도장, 0.43768829107284546),
 (연합군, 0.4367105960845947),
 (감독, 0.42979687452316284)]




여왕이라고 딱 나와주면 좋을 것 같은데 나오지 않았다 -_-!

혹시 해서 vector를 1000개로 테스트하니 그제서야 여왕이 결과에 포함되었다. 
당연한 이야기겠지만 벡터의 개수가 생성된 벡터 스페이스의 결과에 영향을 주는것을 확인하였다 -_-!



>>> pprint(model.most_similar(positive=[u'여자', u'왕'], negative=[u'남자']))
[(국왕, 0.34298175573349),
 (왕인, 0.2681395709514618),
 (초등, 0.2596897780895233),
 (여왕, 0.2578367292881012),
 (성당, 0.23974566161632538),
 (군, 0.23846948146820068),
 (의원, 0.23629550635814667),
 (출신, 0.233859583735466),
 (감독, 0.2312195748090744),
 (도서관, 0.23090218007564545)]











참고로 위 코드들 및 기훈련된 doc2vec model 파일들은 아래 github에 올려두었다. 
앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


 https://github.com/roboreport/doc2vec-api/










참고: http://textminingonline.com/training-word2vec-model-on-english-wikipedia-by-gensim


  • 2017.03.09 19:56 ADDR 수정/삭제 답글

    비밀댓글입니다

  • smilemango 2017.07.04 11:55 ADDR 수정/삭제 답글

    doc2vec에 데이터 입력할때 아티클별로 파일을 쪼개지 않아도 되나요?
    이렇게 집어넣으면 word2vec을 돌린 효과만 볼 수 있는거 아닌지요?

    • adana 2017.07.06 16:25 신고 수정/삭제

      안녕하세요. gensim api에서 taggedLineDocument 함수는 문서 하나를 하나의 라인으로 된 파일을 입력으로 받고 있습니다. 그래서 한국어 위키도 각각의 문서(또는 패시지)를 하나의 라인으로 해서 전체 위키를 하나의 파일로 만들어서 입력 파일로 사용했습니다. 뭔가 잘못된 부분이 있으면 다시 알려주시면 감사하겠습니다 ^^

      class gensim.models.doc2vec.TaggedLineDocument(source)
      Bases: object

      Simple format: one document = one line = one TaggedDocument object.

      Words are expected to be already preprocessed and separated by whitespace, tags are constructed automatically from the document line number.

      source can be either a string (filename) or a file object.

word2vec/doc2vec 언어별 데모 사이트 모음



언어별 word2vec 데모 사이트들을 발견하는대로 

앞으로 이 포스팅에서 정리하려고 한다. 




한국어 word2vec 데모 사이트 (1) 바로가기 












한국어 word2vec/doc2vec 데모 사이트 바로가기 








핀란드/영어 word2vec 데모 사이트 바로가기 









  • 방문자수 2017.11.24 10:29 ADDR 수정/삭제 답글

    오호 찾고 있던 건데
    좋은 자료 감사합니다
    감기 항상 조심하세용

sklearn CountVectorizer 클래스 사용법







Sklearn CountVectorizer 클래스 사용법 




CountVectorizer 는 문서를 token count matrix로 변환하는 클래스입니다. 



여기서 feature는 문장의 토큰 단위로 

 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pattern, stop_words 

등의 분석 단계를 거쳐 나온 토큰들을  의미합니다. 


CountVectorizer 클래스 설명 문서 바로가기 


feature extraction 설명 문서 바로가기 



class sklearn.feature_extraction.text.CountVectorizer(input=u'content', encoding=u'utf-8', decode_error=u'strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=u'(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer=u'word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<type 'numpy.int64'>)[source]



이 함수의 기본 토큰 패턴(token_pattern) 옵셥이 \w\w+ (두 letter 이상)임에 유의하세요. 

이걸 모르고 위키피디아를 기본 옵션으로 돌렸을 때

 single letter들이 토큰으로 나오지 않아 이리저리 찾아보는 삽질을 했었다는;


클래스 사용법은 간단합니다. 

한국어 위키피디아 문서로 클래스 함수들을 사용하는 예시를 작성하였으니 확인해봅시다. 



입력으로 넣었던 테스트 문장은 아래와 같습니다. 

한국어 위키에서 가져온 10 문장이고 mecab으로 이미 형태소 단위 토크나이징이 완료된 상태입니다. 


위키 문서 및 토크나이징 관련 이전 포스팅 바로가기



지미 카터

제임스 얼 " 지미 " 카터 주니어 ( , 1924 년 10 월 1 일 ~ ) 는 민주당 출신 미국 39 번 째 대통령 ( 1977 년 ~ 1981 년 ) 이 다 .

지미 카터 는 조지아 주 섬터 카운티 플 레인스 마을 에서 태어났 다 . 조지 아 공과 대학교 를 졸업 하 였 다 . 그 후 해군 에 들어가 전함 · 원자력 · 잠수함 의 승무원 으로 일 하 였 다 . 1953 년 미국 해군 대위 로 예편 하 였 고 이후 땅콩 · 면화 등 을 가꿔 많 은 돈 을 벌 었 다 . 그 의 별명 이 " 땅콩 농부 " ( Peanut Farmer ) 로 알려졌 다 .


1962 년 조지아 주 상원 의원 선거 에서 낙선 하나 그 선거 가 부정 선거 였음을 입증 하 게 되 어 당선 되 고 , 1966 년 조지아 주 지사 선거 에 낙선 하 지만 1970 년 조지아 주 지사 를 역임 했 다 . 대통령 이 되 기 전 조지 아 주 상원 의원 을 두 번 연임 했으며 , 1971 년 부터 1975 년 까지 조지 아 지사 로 근무 했 다 . 조지 아 >주지사 로 지내 면서 , 미국 에 사 는 흑인 등 용법 을 내세웠 다 .
1976 년 대통령 선거 에 민주당 후보 로 출마 하 여 도덕주의 정책 으로 내세워 , 포드 를 누르 고 당선 되 었 다 .
카터 대통령 은 에너지 개발 을 촉구 했으나 공화 당 의 반대 로 무산 되 었 다 .
카터 는 이집트 와 이스라엘 을 조정 하 여 , 캠프 데이비드 에서 안와르 사다트 대통령 과 메나헴 베긴 수상 과 함께 중동 평화 를 위한 캠프 데이비드 협정 을 체결 했
 다 .
그러나 이것 은 공화 당 과 미국 의 유대인 단체 의 반발 을 일으켰 다 . 1979 년 백악관 에서 양국 간 의 평화 조약 으로 이끌 어 졌 다 . 또한 소련 과 제 2 차 전략 무기 제한 협상 에 조인 했 다 .
카터 는 1970 년 대 후반 당시 대한민국 등 인권 후진국 의 국민 들 의 인권 을 지키 기 위해 노력 했으며 , 취임 이후 계속 해서 도덕 정치 를 내세웠 다 .
그러나 주 이란 미국 대사관 인질 사건 에서 인질 구출 실패 를 이유 로 1980 년 대통령 선거 에서 공화 당 의 로널드 레이건 후보 에게 져 결국 재선 에 실패 했 다 . >또한 임기 말기 에 터진 소련 의 아프가니스탄 침공 사건 으로 인해 1980 년 하계 올림픽 에 반공 국가 들 의 보이콧 을 내세웠 다 .
~






utf-8 인코딩의 한글 파일이라 

파일을 읽을 때 utf-8 설정을 해주고 파일을 읽어 리스트를 만듭니다. 


 CountVectorizer 인스턴스를 만들고 fit_transform 메소드를 실행하면 

term-document matrix가 생성됩니다. 

참 쉽지요 ㅎㅎㅎ 





import sys 

from sklearn.feature_extraction.text import CountVectorizer

import codecs



reload(sys)

sys.setdefaultencoding('utf-8')


filename =  sys.argv[1]

with codecs.open(filename, 'r', 'utf-8') as f:

    lines = f.readlines()



vectorizer = CountVectorizer(min_df=1)

Tf = vectorizer.fit_transform(lines)










참고로 CountVectorizer class method는 아래와 같습니다. 







fit_transform은 fit 과 transform 함수를 이어서 적용할 때와 결과는 동일한데 

좀 더 효율적으로 실행이 된다고 합니다. 


위 테스트 문장을 돌려본 결과를 확인해보겠습니다. 



Tf shape

(10, 158)

Tf

  (0, 139)      1

  (0, 129)      1

  (1, 12)       1

  (1, 9)        1

  (1, 39)       1

  (1, 13)       1

  (1, 58)       1

  (1, 135)      1

  (1, 59)       1

  (1, 0)        1

  (1, 1)        1

  (1, 124)      1

  (1, 116)      1

  (1, 139)      1

  (1, 129)      1

  (2, 80)       1

  (2, 14)       1

  (2, 15)       1

  (2, 32)       1

  (2, 65)       1

  (2, 16)       1

  (2, 55)       1

  (2, 46)       2

  (2, 103)      1

  (2, 88)       1

  :     :

  (9, 108)      1

  (9, 111)      1

  (9, 18)       1

  (9, 82)       1

  (9, 48)       1

  (9, 50)       1

  (9, 11)       2

  (9, 101)      1





Tf.shape를 보면 (10, 158)로 앞의 10은 문장 수, 뒤의 158은 feature 개수를 의미합니다. 

10개의 문장이 158 토큰으로 표현이 된 것입니다. 


fit_transform은 결과 매트릭스를 좀 더 압축된 형태로 보여줍니다. 

(0, 129)에서 0은 문서 인덱스, 128는 feature 인덱스, 숫자는 그 feature의 term count 값을 의미합니다. 

첫번째 문장은 "지미 카터" 였으니 0 인덱스로 시작하는 값이 두 개가 있네요. 

각각의 feature(token or term)이 문서에 몇 번씩 나왔는지 확인할 수 있습니다. 


압축된 형태로 보는 것이 아니라 전체 매트릭스를 보고 싶으면 toarray()를 사용하시면 됩니다. 








Tf_array = Tf.toarray()


print Tf_array 



[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0]

 [1 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0

  0 0 0 0 0 0 0 0 0 0]

 [0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0

  0 1 0 1 0 0 0 0 1 2 0 0 1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

  0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1

  0 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0

  2 0 0 0 0 0 0 0 0 0]

 [0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 0 1 0 0 0 0 1 0

  0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 2 4 0

  0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 1 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0

  0 0 0 0 0 0 0 0 0 0 3 3 0 0 1 0 1 1 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

  0 0 0 1 0 0 0 0 0 1]

 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0

  0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0

  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0

  0 0 0 0 0 0 0 1 0 0]


...






그리고 각 term와 연결되어 있는 feature index를 확인하고 싶으면 

vocabulary_ 속성을 사용하면 됩니다. 

앞에 나온 지미의 feature index는 129네요. 






print vectorizer.vocabulary_.get(u'지미')

129


print vectorizer.vocabulary

{u'\ud130\uc9c4': 142, u'\ub300\uc704': 38, u'\uba74\ud654': 55, u'\ub2e8\uccb4': 34, u'\uc54c\ub824\uc84c': 80, u'1962': 3, u'\ub300\ud559\uad50': 40, u'\ud3ec\ub4dc': 144, u'\ub9c8\uc744': 51, u'\uad6d\uac00': 23, u'\uae4c\uc9c0': 27, u'\uc911\ub3d9': 126, u'peanut': 15, u'\uc870\uc778': 119, u'\ubc18\ubc1c': 62, u'\ubb34\uc0b0': 57, u'\uc870\uc57d': 118, u'\ud611\uc0c1': 152, u'farmer': 14, u'\uc8fc\uc9c0\uc0ac': 125, u'\uc81c\ud55c': 117, u'\ucde8\uc784': 136, u'\ud574\uc11c': 149, u'\uacf5\uacfc': 20, u'\ud3c9\ud654': 143, u'\ub4e4\uc5b4\uac00': 45, u'\ub178\ub825': 31, u'1953': 2, u'\uc720\ub300\uc778': 94, u'\uc774\uc9d1\ud2b8': 102, u'\ub300\ud1b5\ub839': 39, u'\uc804\ud568': 113, u'\uc120\uac70': 72, u'\uc5d0\uc11c': 84, u'\ub2f9\uc2dc': 36, u'1979': 10, u'\ub204\ub974': 33, u'\uc774\uc720': 101, u'\uc2e4\ud328': 77, u'\ubbf8\uad6d': 58, u'\uc218\uc0c1': 75, u'\uc2b9\ubb34\uc6d0': 76, u'\uc870\uc9c0': 121, u'1924': 1, u'\ub610\ud55c': 47, u'\ubd80\uc815': 67, u'\ubcf4\uc774\ucf67': 66, u'\ub370\uc774\ube44\ub4dc': 42, u'\uc0ac\ub2e4\ud2b8': 70, u'\uce74\ud130': 139, u'\ub099\uc120': 28, u'\uc5d0\ub108\uc9c0': 83, u'\ubb34\uae30': 56, u'\uc878\uc5c5': 123, u'\ucd09\uad6c': 133, u'\ud751\uc778': 157, u'\uc9c0\ubbf8': 129, u'\uc804\ub7b5': 112, u'\ubc18\uacf5': 60, u'\ubc31\uc545\uad00': 63, u'\uacc4\uc18d': 19, u'\ud558\uacc4': 145, u'\ud0dc\uc5b4\ub0ac': 141, u'\uc785\uc99d': 109, u'\uc0c1\uc6d0': 71, u'\ub85c\ub110\ub4dc': 50, u'\uc81c\uc784\uc2a4': 116, u'\uc758\uc6d0': 96, u'\uba54\ub098\ud5f4': 53, u'\uc774\ub780': 99, u'39': 13, u'\ub545\ucf69': 46, u'\ub18d\ubd80': 32, u'\ucea0\ud504': 140, u'\ub300\ud55c\ubbfc\uad6d': 41, u'\ucd9c\ub9c8': 134, u'\ud6c4\uc9c4\uad6d': 156, u'\uc870\uc9c0\uc544': 122, u'\uc5ed\uc784': 85, u'\uc8fc\ub2c8\uc5b4': 124, u'\uac00\uafd4': 16, u'\ub300\uc0ac\uad00': 37, u'\uc6a9\ubc95': 90, u'\uc774\ub04c': 98, u'\ud574\uad70': 148, u'\ub3c4\ub355': 43, u'\uc591\uad6d': 81, u'\uad6c\ucd9c': 22, u'\uc778\ud574': 106, u'\uc7ac\uc120': 111, u'1981': 12, u'\ub808\uc778\uc2a4': 49, u'\uc5f0\uc784': 86, u'\ub808\uc774\uac74': 48, u'\ucd9c\uc2e0': 135, u'\uba74\uc11c': 54, u'\uc870\uc815': 120, u'\ubc18\ub300': 61, u'\ud568\uaed8': 147, u'\uc704\ud55c': 92, u'\uc9c0\ub9cc': 128, u'\ud6c4\ubc18': 154, u'\ud611\uc815': 153, u'\uc774\uc2a4\ub77c\uc5d8': 100, u'10': 0, u'\uc778\uad8c': 104, u'\ubbfc\uc8fc\ub2f9': 59, u'\ud558\ub098': 146, u'\uc544\ud504\uac00\ub2c8\uc2a4\ud0c4': 78, u'\uc0ac\uac74': 69, u'1980': 11, u'\ud588\uc73c\ub098': 150, u'\ub3c4\ub355\uc8fc\uc758': 44, u'\uc704\ud574': 93, u'\uc73c\ub85c': 95, u'\uacb0\uad6d': 18, u'\uc7a0\uc218\ud568': 110, u'\uc6d0\uc790\ub825': 91, u'\ub2f9\uc120': 35, u'\ub9d0\uae30': 52, u'\uc18c\ub828': 74, u'\ub0b4\uc138\uc6e0': 30, u'1971': 6, u'\uc62c\ub9bc\ud53d': 89, u'\uadf8\ub7ec\ub098': 25, u'\uc774\ud6c4': 103, u'\ud588\uc73c\uba70': 151, u'\uc608\ud3b8': 88, u'\uc600\uc74c\uc744': 87, u'\uc815\uce58': 115, u'1966': 4, u'\uccb4\uacb0': 132, u'\ubd80\ud130': 68, u'\uc12c\ud130': 73, u'\uc815\ucc45': 114, u'\ud6c4\ubcf4': 155, u'\uac1c\ubc1c': 17, u'\uc784\uae30': 108, u'\uc548\uc640\ub974': 79, u'\uadfc\ubb34': 26, u'\uce74\uc6b4\ud2f0': 138, u'\uacf5\ud654': 21, u'\ubcc4\uba85': 65, u'\uc778\uc9c8': 105, u'\uce68\uacf5': 137, u'\ub0b4\uc138\uc6cc': 29, u'\ubca0\uae34': 64, u'\uc774\uac83': 97, u'\uc9c0\ud0a4': 131, u'1977': 9, u'1976': 8, u'1975': 7, u'\uc77c\uc73c\ucf30': 107, u'\uc9c0\uc0ac': 130, u'1970': 5, u'\uc9c0\ub0b4': 127, u'\uad6d\ubbfc': 24, u'\uc5d0\uac8c': 82}





get_feature_names라고 feature에 사용된 토큰들만 보여주는 함수도 있습니다. 

feature 리스트를 출력해보면 기본 토큰 패턴에 맞지 않는 기호들, single letter 인 토큰들은 

리스트에 없는 것을 확인할 수 있습니다.  





features = vectorizer.get_feature_names()

for feature in features:

        print feature



10

1924

1953

1962

1966

1970

1971

1975

1976

1977

1979

1980

1981

39

farmer

peanut

가꿔

개발

결국

계속

공과

공화

구출

국가








참고: 


http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html


http://scikit-learn.org/stable/modules/feature_extraction.html


http://kugancity.tistory.com/entry/sklearn-TFIDF-vectorizer-%EC%82%AC%EC%9A%A9-%EC%98%88%EC%8B%9C






sklearn TF-IDF vectorizer 사용 예시





Sklearn TfidfVectorizer 클래스 사용법 




TF-IDF vectorizer 는 문서를 tf-idf의 feature matrix로 변환하는 클래스입니다. 

문서에 CountVectorizer를 사용하고 TfidfTransformer를 사용한 것과 똑같은 결과를 가집니다. 




\text{idf}(t) = log{\frac{1 + n_d}{1+\text{df}(d,t)}} + 1,

where n_d is the total number of documents, and \text{df}(d,t) is the number of documents that contain term t. The resulting tf-idf vectors are then normalized by the Euclidean norm:

v_{norm} = \frac{v}{||v||_2} = \frac{v}{\sqrt{v{_1}^2 +
v{_2}^2 + \dots + v{_n}^2}}.




여기서 feature는 문장의 토큰 단위로 

 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pattern, stop_words 

등의 분석 단계를 거쳐 나온 토큰들을  의미합니다. 


TfidfVectorizer 클래스 설명 문서 바로가기 


feature extraction 설명 문서 바로가기 




class sklearn.feature_extraction.text.TfidfVectorizer(input=u'content', encoding=u'utf-8', decode_error=u'strict', 


strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=u'word', stop_words=None, 


token_pattern=u'(?u)\b\w\w+\b', ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, 


binary=False, dtype=<type 'numpy.int64'>, norm=u'l2', use_idf=True, smooth_idf=True, sublinear_tf=False)




이 함수의 기본 토큰 패턴(token_pattern) 옵셥이 \w\w+ (두 letter 이상)임에 유의하세요. 

이걸 모르고 위키피디아를 기본 옵션으로 돌렸을 때

 single letter들이 토큰으로 나오지 않아 이리저리 찾아보는 삽질을 했었다는;


클래스 사용법은 간단합니다. 

한국어 위키피디아 문서로 클래스 함수들을 사용하는 예시를 작성하였으니 확인해봅시다. 



입력으로 넣었던 테스트 문장은 아래와 같습니다. 

한국어 위키에서 가져온 10 문장이고 mecab으로 이미 형태소 단위 토크나이징이 완료된 상태입니다. 


위키 문서 및 토크나이징 관련 이전 포스팅 바로가기



지미 카터

제임스 얼 " 지미 " 카터 주니어 ( , 1924 년 10 월 1 일 ~ ) 는 민주당 출신 미국 39 번 째 대통령 ( 1977 년 ~ 1981 년 ) 이 다 .

지미 카터 는 조지아 주 섬터 카운티 플 레인스 마을 에서 태어났 다 . 조지 아 공과 대학교 를 졸업 하 였 다 . 그 후 해군 에 들어가 전함 · 원자력 · 잠수함 의 승무>원 으로 일 하 였 다 . 1953 년 미국 해군 대위 로 예편 하 였 고 이후 땅콩 · 면화 등 을 가꿔 많 은 돈 을 벌 었 다 . 그 의 별명 이 " 땅콩 농부 " ( Peanut Farmer ) 로 알려졌 다 .


1962 년 조지아 주 상원 의원 선거 에서 낙선 하나 그 선거 가 부정 선거 였음을 입증 하 게 되 어 당선 되 고 , 1966 년 조지아 주 지사 선거 에 낙선 하 지만 1970 년 조지아 주 지사 를 역임 했 다 . 대통령 이 되 기 전 조지 아 주 상원 의원 을 두 번 연임 했으며 , 1971 년 부터 1975 년 까지 조지 아 지사 로 근무 했 다 . 조지 아 >주지사 로 지내 면서 , 미국 에 사 는 흑인 등 용법 을 내세웠 다 .
1976 년 대통령 선거 에 민주당 후보 로 출마 하 여 도덕주의 정책 으로 내세워 , 포드 를 누르 고 당선 되 었 다 .
카터 대통령 은 에너지 개발 을 촉구 했으나 공화 당 의 반대 로 무산 되 었 다 .
카터 는 이집트 와 이스라엘 을 조정 하 여 , 캠프 데이비드 에서 안와르 사다트 대통령 과 메나헴 베긴 수상 과 함께 중동 평화 를 위한 캠프 데이비드 협정 을 체결 했
 다 .
그러나 이것 은 공화 당 과 미국 의 유대인 단체 의 반발 을 일으켰 다 . 1979 년 백악관 에서 양국 간 의 평화 조약 으로 이끌 어 졌 다 . 또한 소련 과 제 2 차 전략 >무기 제한 협상 에 조인 했 다 .
카터 는 1970 년 대 후반 당시 대한민국 등 인권 후진국 의 국민 들 의 인권 을 지키 기 위해 노력 했으며 , 취임 이후 계속 해서 도덕 정치 를 내세웠 다 .
그러나 주 이란 미국 대사관 인질 사건 에서 인질 구출 실패 를 이유 로 1980 년 대통령 선거 에서 공화 당 의 로널드 레이건 후보 에게 져 결국 재선 에 실패 했 다 . >또한 임기 말기 에 터진 소련 의 아프가니스탄 침공 사건 으로 인해 1980 년 하계 올림픽 에 반공 국가 들 의 보이콧 을 내세웠 다 .
~






한글 파일이라 utf-8 설정을 해주고 파일을 읽어 리스트를 만듭니다. 


TfidfVectorizer 인스턴스를 만들고 fit_transform 메소드를 실행하면 

term-document matrix가 생성됩니다. 

참 쉽지요 ㅎㅎㅎ 





from sklearn.feature_extraction.text import TfidfVectorizer

import codecs



reload(sys)

sys.setdefaultencoding('utf-8')


filename =  sys.argv[1]

with codecs.open(filename, 'r', 'utf-8') as f:

    lines = f.readlines()


cv = TfidfVectorizer()

X = cv.fit_transform(lines)









참고로 TfidfVectorizer class method는 아래와 같습니다. 





fit_transform은 fit 과 transform 함수를 이어서 적용할 때와 결과는 동일한데 

좀 더 효율적으로 실행이 된다고 합니다. 


위 테스트 문장을 돌려본 결과를 확인해보겠습니다. 




print X.shape

(10, 158)


print X 


X

  (0, 129)      0.810839478277

  (0, 139)      0.585268605401

  (1, 129)      0.232816176569

  (1, 139)      0.168048057138

  (1, 116)      0.313038787048

  (1, 124)      0.313038787048

  (1, 1)        0.313038787048

  (1, 0)        0.313038787048

  (1, 59)       0.266111568208

  (1, 135)      0.313038787048

  (1, 58)       0.185888957728

  (1, 13)       0.313038787048

  (1, 39)       0.168048057138

  (1, 9)        0.313038787048

  (1, 12)       0.313038787048

...




X.shape를 보면 (10, 158)로 앞의 10은 문장 수, 뒤의 158은 feature 개수를 의미합니다. 

10개의 문장이 158 토큰으로 표현이 된 것입니다. 


fit_transform은 결과 매트릭스를 좀 더 압축된 형태로 보여줍니다. 

(0, 129)에서 0은 문서 인덱스, 128는 feature 인덱스, 숫자는 그 feature의 tf-idf 값을 의미합니다. 

첫번째 문장은 "지미 카터" 였으니 0 인덱스로 시작하는 값이 두 개가 있네요. 


압축된 형태로 보는 것이 아니라 전체 매트릭스를 보고 싶으면 toarray()를 사용하시면 됩니다. 








X_array = X.toarray()


print X_array 


[[ 0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.81083948  0.          0.          0.

   0.          0.          0.          0.          0.          0.

   0.58526861  0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.        ]


 [ 0.31303879  0.31303879  0.          0.          0.          0.          0.

   0.          0.          0.31303879  0.          0.          0.31303879

   0.31303879  0.          0.          0.          0.          0.          0.

   0.          0.          0.          0.          0.          0.          0.




그리고 각 term와 연결되어 있는 feature index를 확인하고 싶으면 

vocabulary_ 속성을 사용하면 됩니다. 

앞에 나온 지미의 feature index는 129네요. 






print cv.vocabulary_.get(u'지미')

129


print cv.vocabulary

{u'\ud130\uc9c4': 142, u'\ub300\uc704': 38, u'\uba74\ud654': 55, u'\ub2e8\uccb4': 34, u'\uc54c\ub824\uc84c': 80, u'1962': 3, u'\ub300\ud559\uad50': 40, u'\ud3ec\ub4dc': 144, u'\ub9c8\uc744': 51, u'\uad6d\uac00': 23, u'\uae4c\uc9c0': 27, u'\uc911\ub3d9': 126, u'peanut': 15, u'\uc870\uc778': 119, u'\ubc18\ubc1c': 62, u'\ubb34\uc0b0': 57, u'\uc870\uc57d': 118, u'\ud611\uc0c1': 152, u'farmer': 14, u'\uc8fc\uc9c0\uc0ac': 125, u'\uc81c\ud55c': 117, u'\ucde8\uc784': 136, u'\ud574\uc11c': 149, u'\uacf5\uacfc': 20, u'\ud3c9\ud654': 143, u'\ub4e4\uc5b4\uac00': 45, u'\ub178\ub825': 31, u'1953': 2, u'\uc720\ub300\uc778': 94, u'\uc774\uc9d1\ud2b8': 102, u'\ub300\ud1b5\ub839': 39, u'\uc804\ud568': 113, u'\uc120\uac70': 72, u'\uc5d0\uc11c': 84, u'\ub2f9\uc2dc': 36, u'1979': 10, u'\ub204\ub974': 33, u'\uc774\uc720': 101, u'\uc2e4\ud328': 77, u'\ubbf8\uad6d': 58, u'\uc218\uc0c1': 75, u'\uc2b9\ubb34\uc6d0': 76, u'\uc870\uc9c0': 121, u'1924': 1, u'\ub610\ud55c': 47, u'\ubd80\uc815': 67, u'\ubcf4\uc774\ucf67': 66, u'\ub370\uc774\ube44\ub4dc': 42, u'\uc0ac\ub2e4\ud2b8': 70, u'\uce74\ud130': 139, u'\ub099\uc120': 28, u'\uc5d0\ub108\uc9c0': 83, u'\ubb34\uae30': 56, u'\uc878\uc5c5': 123, u'\ucd09\uad6c': 133, u'\ud751\uc778': 157, u'\uc9c0\ubbf8': 129, u'\uc804\ub7b5': 112, u'\ubc18\uacf5': 60, u'\ubc31\uc545\uad00': 63, u'\uacc4\uc18d': 19, u'\ud558\uacc4': 145, u'\ud0dc\uc5b4\ub0ac': 141, u'\uc785\uc99d': 109, u'\uc0c1\uc6d0': 71, u'\ub85c\ub110\ub4dc': 50, u'\uc81c\uc784\uc2a4': 116, u'\uc758\uc6d0': 96, u'\uba54\ub098\ud5f4': 53, u'\uc774\ub780': 99, u'39': 13, u'\ub545\ucf69': 46, u'\ub18d\ubd80': 32, u'\ucea0\ud504': 140, u'\ub300\ud55c\ubbfc\uad6d': 41, u'\ucd9c\ub9c8': 134, u'\ud6c4\uc9c4\uad6d': 156, u'\uc870\uc9c0\uc544': 122, u'\uc5ed\uc784': 85, u'\uc8fc\ub2c8\uc5b4': 124, u'\uac00\uafd4': 16, u'\ub300\uc0ac\uad00': 37, u'\uc6a9\ubc95': 90, u'\uc774\ub04c': 98, u'\ud574\uad70': 148, u'\ub3c4\ub355': 43, u'\uc591\uad6d': 81, u'\uad6c\ucd9c': 22, u'\uc778\ud574': 106, u'\uc7ac\uc120': 111, u'1981': 12, u'\ub808\uc778\uc2a4': 49, u'\uc5f0\uc784': 86, u'\ub808\uc774\uac74': 48, u'\ucd9c\uc2e0': 135, u'\uba74\uc11c': 54, u'\uc870\uc815': 120, u'\ubc18\ub300': 61, u'\ud568\uaed8': 147, u'\uc704\ud55c': 92, u'\uc9c0\ub9cc': 128, u'\ud6c4\ubc18': 154, u'\ud611\uc815': 153, u'\uc774\uc2a4\ub77c\uc5d8': 100, u'10': 0, u'\uc778\uad8c': 104, u'\ubbfc\uc8fc\ub2f9': 59, u'\ud558\ub098': 146, u'\uc544\ud504\uac00\ub2c8\uc2a4\ud0c4': 78, u'\uc0ac\uac74': 69, u'1980': 11, u'\ud588\uc73c\ub098': 150, u'\ub3c4\ub355\uc8fc\uc758': 44, u'\uc704\ud574': 93, u'\uc73c\ub85c': 95, u'\uacb0\uad6d': 18, u'\uc7a0\uc218\ud568': 110, u'\uc6d0\uc790\ub825': 91, u'\ub2f9\uc120': 35, u'\ub9d0\uae30': 52, u'\uc18c\ub828': 74, u'\ub0b4\uc138\uc6e0': 30, u'1971': 6, u'\uc62c\ub9bc\ud53d': 89, u'\uadf8\ub7ec\ub098': 25, u'\uc774\ud6c4': 103, u'\ud588\uc73c\uba70': 151, u'\uc608\ud3b8': 88, u'\uc600\uc74c\uc744': 87, u'\uc815\uce58': 115, u'1966': 4, u'\uccb4\uacb0': 132, u'\ubd80\ud130': 68, u'\uc12c\ud130': 73, u'\uc815\ucc45': 114, u'\ud6c4\ubcf4': 155, u'\uac1c\ubc1c': 17, u'\uc784\uae30': 108, u'\uc548\uc640\ub974': 79, u'\uadfc\ubb34': 26, u'\uce74\uc6b4\ud2f0': 138, u'\uacf5\ud654': 21, u'\ubcc4\uba85': 65, u'\uc778\uc9c8': 105, u'\uce68\uacf5': 137, u'\ub0b4\uc138\uc6cc': 29, u'\ubca0\uae34': 64, u'\uc774\uac83': 97, u'\uc9c0\ud0a4': 131, u'1977': 9, u'1976': 8, u'1975': 7, u'\uc77c\uc73c\ucf30': 107, u'\uc9c0\uc0ac': 130, u'1970': 5, u'\uc9c0\ub0b4': 127, u'\uad6d\ubbfc': 24, u'\uc5d0\uac8c': 82}





get_feature_names라고 feature에 사용된 토큰들만 보여주는 함수도 있습니다. 

feature 리스트를 출력해보면 기본 토큰 패턴에 맞지 않는 기호들, single letter 인 토큰들은 

리스트에 없는 것을 확인할 수 있습니다.  





features = cv.get_feature_names()

for feature in features:

        print feature



10

1924

1953

1962

1966

1970

1971

1975

1976

1977

1979

1980

1981

39

farmer

peanut

가꿔

개발

결국

계속

공과

공화

구출

국가








마지막으로 속성들 중에서는 feature들의 idf 값만 따로 출력하는 _idf 속성도 있습니다. 



idf 벡터를 리턴하며 여기서 idf 값은 global term weight 입니다. 





idfs =  cv.idf_

print idfs.shape


(158,)


print idfs


[ 2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.29928298

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.01160091  2.70474809  2.70474809

  2.70474809  2.29928298  2.70474809  2.70474809  2.70474809  2.70474809

  2.01160091  2.70474809  2.70474809  2.70474809  2.70474809  2.29928298

  2.70474809  2.70474809  2.70474809  1.45198512  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.29928298

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  1.6061358   2.29928298

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.01160091  2.70474809  2.29928298  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  1.6061358   2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  1.78845736

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.29928298  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.29928298  2.29928298  2.70474809  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.01160091  2.70474809  2.70474809

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  1.45198512  2.70474809  2.70474809  2.70474809  2.29928298

  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809  2.70474809

  2.70474809  2.29928298  2.70474809  2.70474809  2.70474809  2.29928298

  2.70474809  2.70474809]





{word : column index in array}



참고: 


http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html


http://scikit-learn.org/stable/modules/feature_extraction.html


http://stackoverflow.com/questions/30976120/find-the-tf-idf-score-of-specific-words-in-documents-using-sklearn




한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기


한국어 뉴스 데이터로 딥러닝 시작하기 



3. 위키 데이터 한국어 형태소 태깅하기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기


doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다. 

위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진 

mecab 오픈 소스를 사용해 보겠습니다. 




설치 및 사용방법은 아래 사이트를 참고하였습니다. 


https://bitbucket.org/eunjeon/mecab-ko-dic





mecab 사이트 바로가기: 

https://bitbucket.org/eunjeon/mecab-ko/overview


mecab 다운로드 사이트 바로가기 

:  https://bitbucket.org/eunjeon/mecab-ko/downloads





# mecab 다운로드 받기 

wget "https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz"


#설치하기


tar zxfv mecab-0.996-ko-0.9.2.tar.gz

 cd mecab-0.996-ko-0.9.2

 ./configure

 make

 make check

make install




간단하게 mecab 설치가 완료 되었습니다. 


한국어 형태소 분석기 (mecab)을 사용하기 위해서는 

한국어 사전(mecab-ko-dic)도 같이 설치가 되어야합니다. 


mecab-ko-dic 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic

mecab-ko-dic 다운로드 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic/downloads


다운로드 및 설치 과정은 아래에 기록해 두었다. 





//  mecab-ko-dic 다운로드 

 wget "https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.0.1-20150920.tar.gz"

 

// 압축 풀기 

#tar zxfv mecab-ko-dic-2.0.1-20150920.tar.gz

 

// 설치하기 

#cd mecab-ko-dic-2.0.1-20150920

 #./configure

#make


// 설치 과정중 아래와 같은 에러 발생하면 당황하지 말고 

// sudo ldconfig로 라이브러리를 다시 링크하고 다시 make를 실행하면 된다

/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f UTF-8 -t UTF-8

/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No 


such file or directory

make: *** [model.bin] Error 127

# sudo ldconfig


done!

echo To enable dictionary, rewrite /usr/local/etc/mecabrc as \"dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic\"

To enable dictionary, rewrite /usr/local/etc/mecabrc as "dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic"




#make

#make install






한국어 사전 설치도 간단하게 완료 되었다. 

이제 mecab을 실행해보자. 





/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic

mecab-ko-dic은 MeCab을 사용하여, 한국어 형태소 분석을 하기 위한 프로젝트입니다.

mecab   SL,*,*,*,*,*,*,*

-       SY,*,*,*,*,*,*,*

ko      SL,*,*,*,*,*,*,*

-       SY,*,*,*,*,*,*,*

dic     SL,*,*,*,*,*,*,*

은      JX,*,T,은,*,*,*,*

MeCab   SL,*,*,*,*,*,*,*

을      JKO,*,T,을,*,*,*,*

사용    NNG,*,T,사용,*,*,*,*

하      XSV,*,F,하,*,*,*,*

여      EC,*,F,여,*,*,*,*

,       SC,*,*,*,*,*,*,*

한국어  NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*

형태소  NNG,*,F,형태소,Compound,*,*,형태/NNG/*+소/NNG/*

분석    NNG,*,T,분석,*,*,*,*

을      JKO,*,T,을,*,*,*,*

하      VV,*,F,하,*,*,*,*

기      ETN,*,F,기,*,*,*,*

위한    VV+ETM,*,T,위한,Inflect,VV,ETM,위하/VV/*+ᆫ/ETM/*

프로젝트        NNG,*,F,프로젝트,*,*,*,*

입니다  VCP+EF,*,F,입니다,Inflect,VCP,EF,이/VCP/*+ᄇ니다/EF/*

.       SF,*,*,*,*,*,*,*

EOS




참고로 mecab 사용 옵션은 아래와 같습니다. 



/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -h

MeCab: Yet Another Part-of-Speech and Morphological Analyzer


Copyright(C) 2001-2012 Taku Kudo

Copyright(C) 2004-2008 Nippon Telegraph and Telephone Corporation


Usage: mecab [options] files

 -r, --rcfile=FILE              use FILE as resource file

 -d, --dicdir=DIR               set DIR  as a system dicdir

 -u, --userdic=FILE             use FILE as a user dictionary

 -l, --lattice-level=INT        lattice information level (DEPRECATED)

 -D, --dictionary-info          show dictionary information and exit

 -O, --output-format-type=TYPE  set output format type (wakati,none,...)

 -a, --all-morphs               output all morphs(default false)

 -N, --nbest=INT                output N best results (default 1)

 -p, --partial                  partial parsing mode (default false)

 -m, --marginal                 output marginal probability (default false)

 -M, --max-grouping-size=INT    maximum grouping size for unknown words (default 24)

 -F, --node-format=STR          use STR as the user-defined node format

 -U, --unk-format=STR           use STR as the user-defined unknown node format

 -B, --bos-format=STR           use STR as the user-defined beginning-of-sentence format

 -E, --eos-format=STR           use STR as the user-defined end-of-sentence format

 -S, --eon-format=STR           use STR as the user-defined end-of-NBest format

 -x, --unk-feature=STR          use STR as the feature for unknown word

 -b, --input-buffer-size=INT    set input buffer size (default 8192)

 -P, --dump-config              dump MeCab parameters

 -C, --allocate-sentence        allocate new memory for input sentence

 -t, --theta=FLOAT              set temparature parameter theta (default 0.75)

 -c, --cost-factor=INT          set cost factor (default 700)

 -o, --output=FILE              set the output file name

 -v, --version                  show the version and exit.

 -h, --help                     show this help and exit.





이제 이전 포스팅에서 위키데이터에서 추출했던 텍스트 파일을 형태소 태깅해보겠습니다. 

위키 문서를 추출할때 단락 단위로 한 라인으로 저장되어 있어

input-buffer overflow.에러가 나와서  -b 옵션을 사용하여 input-buffer-size를 늘렸습니다. 






/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -b 10240 < wiki.txt > wiki.pos




참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다. 

앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


github 바로가기 


 https://github.com/roboreport/doc2vec-api/




이제 형태소 태깅된 위키 파일로 doc2vec 모델을 훈련해보겠습니다.









한국어 뉴스 데이터로 딥러닝 시작하기 - 2. 위키 덤프 데이터 파싱하기



한국어 뉴스 데이터로 딥러닝 시작하기 



2. 위키 덤프 데이터 파싱하기 


 1. 한국어 위키 덤프 다운로드 받기 바로가기  



이전 포스팅에서 다운로드 받았던 위키 덤프 데이터를 훈련 데이터로 사용하기 위해서는 

일단 덤프 데이터를 파싱해야 합니다. 


다행히 세상에는 좋은 오픈 소스들이 많기 때문에 

 그 중 하나인 Wikipedia_Extractor 를 사용해 보겠습니다. 


Wikipedia_Extractor는 python 기반의 open source로 

위키 덤프에서 위키 문서의 제목과 본문만 clean text로 추출합니다. 




홈페이지: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

github : https://github.com/attardi/wikiextractor




python이 이미 깔려있어야 하며 

Python 2.7 or Python 3.3+ 버전 이상이 필요합니다. 


설치 및 사용방법은 간단합니다. 



github clone으로 저장소를 checkout 받고

 WikiExtractor.py의 인수로 덤프 파일을 주면 됩니다. 



// 

git clone "https://github.com/attardi/wikiextractor.git"




python WikiExtractor.py kowiki-20161201-pages-articles.xml.bz2




그럼 처리되고 있는 타이틀들이 빠르게 지나가면서 파싱이 진행됩니다. 

참고로 한국어 덤프 파일은 5분 내외로 파싱이 마무리됩니다. 





wikiextractor 로 파싱된 데이터들은 

text 디렉토리에 비슷한 사이즈 파일들로 나눠서 저장되어 있습니다.



/wiki/wikiextractor/text# ll

total 32

drwxr-xr-x 8 root root 4096 12월  7 17:19 ./

drwxr-xr-x 4 root root 4096 12월  7 17:15 ../

drwxr-xr-x 2 root root 4096 12월  7 17:41 AA/

drwxr-xr-x 2 root root 4096 12월  7 17:16 AB/

drwxr-xr-x 2 root root 4096 12월  7 17:17 AC/

drwxr-xr-x 2 root root 4096 12월  7 17:18 AD/

drwxr-xr-x 2 root root 4096 12월  7 17:19 AE/

drwxr-xr-x 2 root root 4096 12월  7 17:19 AF/



# du -sh *

100M    AA

100M    AB

100M    AC

100M    AD

100M    AE

6.7M    AF





/wiki/wikiextractor/text/AA# ls

wiki_00  wiki_06  wiki_12  wiki_18  wiki_24  wiki_30  wiki_36  wiki_42  wiki_48  wiki_54  wiki_60  wiki_66  wiki_72  wiki_78  wiki_84  wiki_90  wiki_96

wiki_01  wiki_07  wiki_13  wiki_19  wiki_25  wiki_31  wiki_37  wiki_43  wiki_49  wiki_55  wiki_61  wiki_67  wiki_73  wiki_79  wiki_85  wiki_91  wiki_97

wiki_02  wiki_08  wiki_14  wiki_20  wiki_26  wiki_32  wiki_38  wiki_44  wiki_50  wiki_56  wiki_62  wiki_68  wiki_74  wiki_80  wiki_86  wiki_92  wiki_98

wiki_03  wiki_09  wiki_15  wiki_21  wiki_27  wiki_33  wiki_39  wiki_45  wiki_51  wiki_57  wiki_63  wiki_69  wiki_75  wiki_81  wiki_87  wiki_93  wiki_99

wiki_04  wiki_10  wiki_16  wiki_22  wiki_28  wiki_34  wiki_40  wiki_46  wiki_52  wiki_58  wiki_64  wiki_70  wiki_76  wiki_82  wiki_88  wiki_94

wiki_05  wiki_11  wiki_17  wiki_23  wiki_29  wiki_35  wiki_41  wiki_47  wiki_53  wiki_59  wiki_65  wiki_71  wiki_77  wiki_83  wiki_89  wiki_90








위 파일들은 여러 개의 문서들을 아래 format으로 저장하고 있습니다. 



 <doc id="" revid="" url="" title="">

        ...

        </doc>




아래는 지미 카터 제목의 문서의 추출 예시입니다. 





<doc id="5" url="https://ko.wikipedia.org/wiki?curid=5" title="지미 카터">

지미 카터


제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령(1977년 ~ 1981년)이다.

지미 카터는 조지아 주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대

위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.

1962년 조지아 주 상원 의원 선거에서 낙선하나 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주 지사 선거에 낙선하지만 1970년 조지아 주 지사를 역임했다. 대통령

이 되기 전 조지아 주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.

1976년 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책으로 내세워, 포드를 누르고 당선되었다.

카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.

카터는 이집트와 이스라엘을 조정하여, 캠프 데이비드에서 안와르 사다트 대통령과 메나헴 베긴 수상과 함께 중동 평화를 위한 캠프데이비드 협정을 체결했다.

그러나 이것은 공화당과 미국의 유대인 단체의 반발을 일으켰다. 1979년 백악관에서 양국 간의 평화조약으로 이끌어졌다. 또한 소련과 제2차 전략 무기 제한 협상에 조인했다.

카터는 1970년대 후반 당시 대한민국 등 인권 후진국의 국민들의 인권을 지키기 위해 노력했으며, 취임 이후 계속해서 도덕정치를 내세웠다.

그러나 주 이란 미국 대사관 인질 사건에서 인질 구출 실패를 이유로 1980년 대통령 선거에서 공화당의 로널드 레이건 후보에게 져 결국 재선에 실패했다. 또한 임기 말기에 터진 소련의 >아프가니스탄 침공 사건으로 인해 1980년 하계 올림픽에 반공국가들의 보이콧을 내세웠다.

지미 카터는 대한민국과의 관계에서도 중요한 영향을 미쳤던 대통령 중 하나다. 인권 문제와 주한미군 철수 문제로 한때 한미 관계가 불편하기도 했다. 1978년 대한민국에 대한 조선민주주

의인민공화국의 위협에 대비해 한미연합사를 창설하면서, 1982년까지 3단계에 걸쳐 주한미군을 철수하기로 했다. 그러나 주한미군사령부와 정보기관·의회의 반대에 부딪혀 주한미군은 완전

철수 대신 6,000명을 감축하는 데 그쳤다 . 또한 박정희 정권의 인권 문제 등과의 논란으로 불협화음을 냈으나, 1979년 6월 하순, 대한민국을 방문하여 관계가 다소 회복되었다.

1979년 ~ 1980년 대한민국의 정치적 격변기 당시의 대통령이었던 그는 이에 대해 애매한 태도를 보였고, 이는 후에 대한민국 내에서 고조되는 반미 운동의 한 원인이 됐다. 10월 26일, 박>정희 대통령이 김재규 중앙정보부장에 의해 살해된 것에 대해 그는 이 사건으로 큰 충격을 받았으며, 사이러스 밴스 국무장관을 조문사절로 파견했다. 12·12 군사 반란과 5.17 쿠데타에 대

해 초기에는 강하게 비난했으나, 미국 정부가 신군부를 설득하는데, 한계가 있었고 결국 묵인하는 듯한 태도를 보이게 됐다.

퇴임 이후 민간 자원을 적극 활용한 비영리 기구인 카터 재단을 설립한 뒤 민주주의 실현을 위해 제 3세계의 선거 감시 활동 및 기니 벌레에 의한 드라쿤쿠르스 질병 방재를 위해 힘썼다. 미국의 빈곤층 지원 활동, 사랑의 집짓기 운동, 국제 분쟁 중재 등의 활동도 했다.

카터는 카터 행정부 이후 미국이 북핵 위기, 코소보 전쟁, 이라크 전쟁과 같이 미국이 군사적 행동을 최후로 선택하는 전통적 사고를 버리고 군사적 행동을 선행하는 행위에 대해 깊은 유>감을 표시 하며 미국의 군사적 활동에 강한 반대 입장을 보이고 있다.

특히 국제 분쟁 조정을 위해 조선민주주의인민공화국의 김일성, 아이티의 세드라스 장군, 팔레인스타인의 하마스, 보스니아의 세르비아계 정권 같이 미국 정부에 대해 협상을 거부하면서 >사태의 위기를 초래한 인물 및 단체를 직접 만나 분쟁의 원인을 근본적으로 해결하기 위해 힘썼다. 이 과정에서 미국 행정부와 갈등을 보이기도 했지만, 전직 대통령의 권한과 재야 유명 >인사들의 활약으로 해결해 나갔다.

1978년에 채결된 캠프데이비드 협정의 이행이 지지부진 하자 중동 분쟁 분제를 해결하기 위해 1993년 퇴임 후 직접 이스라엘과 팔레인스타인의 오슬로 협정을 이끌어 내는 데도 성공했다.

1993년 1차 북핵 위기 당시 조선민주주의인민공화국에 대한 미국의 군사적 행동이 임박했으나, 미국 전직 대통령으로는 처음으로 조선민주주의인민공화국을 방문하고 미국과 조선민주주의>인민공화국 양국의 중재에 큰 기여를 해 위기를 해결했다는 평가를 받았다. 또한 이 때 김일성 주석과 김영삼 대통령의 만남을 주선했다. 하지만 그로부터 수주일 후 김일성이 갑자기 사망

하여 김일성과 김영삼의 만남은 이루어지지 못했다.

미국의 관타나모 수용소 문제, 세계의 인권문제에서도 관심이 깊어 유엔에 유엔인권고등판무관의 제도를 시행하도록 노력하여 독재자들의 인권 유린에 대해 제약을 하고, 국제형사재판소를

 만드는 데 기여하여 독재자들 같은 인권유린범죄자를 재판소로 회부하여 국제적인 처벌을 받게 하는 등 인권 신장에 크나 큰 기여를 했다.

2011년 4월 26일부터 29일까지 조선민주주의인민공화국을 3일간 방문했다.

경제문제를 해결하지 못하고 주 이란 미국 대사관 인질 사건에 발목이 잡혀 실패한 대통령으로 평가를 받지만 이란 사태는 미국 내 이란 재산을 풀어주겠다는 조건을 내세워서 사실상 카터

가 해결한 것이었고, 사랑의 집짓기 운동 등으로 퇴임 후에 훨씬 더 존경받는 미국 대통령 중에 특이한 인물로 남았다.

그는 2002년 말 인권과 중재 역할에 대한 공로를 인정받아 노벨 평화상을 받게 되었다.


</doc>

<doc id="9" url="https://ko.wikipedia.org/wiki?curid=9" title="수학">






참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다. 

앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


github 바로가기 


 https://github.com/roboreport/doc2vec-api/




이제 이 데이터들을 형태소 태깅하여 doc2vec 모델 훈련을 시켜보도록 하겠습니다. 









한국어 뉴스 데이터로 딥러닝 시작하기 - 1. 한국어 위키피디아 덤프 다운로드 받기



한국어 뉴스 데이터로 딥러닝 시작하기 



뉴스 데이터를 이용하여 간단하게 딥러닝 알고리즘으로 

classification 하는 과제를 수행해보고자 한다. 


 자연어를 처리하기 위해서는 단어나 문서를 vector로 변환을 해야 하는데

이러한 변환 과정을 word embedding이라고 한다. 


최근 deep learning에서는 word embedding을 위해서

 word2vec, doc2vec 모델을 주로 사용하기 때문에 

doc2vec 모델로 진행해보려고 한다. 




1. training data 수집 





doc2vec model 훈련을 위해서는 형태소 태깅된 데이터가 필요하다. 

일단 한국어 위키를 다운받아 형태소 태깅을 진행하려고 한다. 


위키피디아는 정기적으로 덤프 파일로 릴리즈 한다. 

언어마다 릴리즈 주기가 다르긴 하지만 

한국어 덤프 파일은 한달에 한두번 릴리즈되고 있으니 참고하자.  



한국어 위키 덤프 다운로드 사이트 바로가기


https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4_%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C




덤프 사이트에 직접 접속하려면 아래 주소로 가면 날짜별로 디렉토리가 있고 
그 안에 덤프 파일들이 있다. 

https://dumps.wikimedia.org/kowiki/



덤프 파일들 종류는 아래와 같다. 


pages-articles.xml.bz2

 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.

pages-current.xml.bz2 - 모든 문서의 최신 버전이 묶여 있습니다.

pages-full.xml.bz2/7z - 모든 문서(토론 포함)의 최신 버전이 묶여 있습니다.

pages-meta-history.xml.bz2 - 모든 문서의 모든 편집 내역이 묶여 있습니다.

abstract.xml.gz - 문서 요약을 묶어놓았습니다.

all_titles_in_ns0.gz - 문서 제목만을 묶어놓았습니다.





최신 버전의 문서만 필요하니 pages-articles.xml.bz2를 다운받는다. 

 
# wget "https://dumps.wikimedia.org/kowiki/20161201/kowiki-20161201-pages-articles.xml.bz2"
--2016-12-07 15:42:15--  https://dumps.wikimedia.org/kowiki/20161201/kowiki-20161201-pages-articles.xml.bz2
Resolving dumps.wikimedia.org (dumps.wikimedia.org)... 208.80.154.11, 2620:0:861:1:208:80:154:11
Connecting to dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.11|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 473196956 (451M) [application/octet-stream]
Saving to: ‘kowiki-20161201-pages-articles.xml.bz2’

100%[=====================================================================================================================================>] 473,196,956 1.93MB/s   in 3m 58s

2016-12-07 15:46:19 (1.90 MB/s) - ‘kowiki-20161201-pages-articles.xml.bz2’ saved [473196956/473196956]





위키 데이터는 xml로 되어 있기 때문에 

이 안에서 본문만 추출하기 위해서는 parsing이 필요하다. 

다음 포스팅에서는 위키 데이터 파싱하는 법을 이어서 설명하겠다. 




참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다. 

앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


github 바로가기 


 https://github.com/roboreport/doc2vec-api/












  • xtalxlr 2019.02.18 15:25 ADDR 수정/삭제 답글

    doc2vec을 쓸 일이 있었는데 글이 도움이 많이 되었습니다. 감사합니다!

    • adana 2019.04.12 11:51 신고 수정/삭제

      도움이 되었다니 다행이네요. 좋은 하루 되세요 : )

elasticsearch 2.3.2 에 한국어 형태소 (은전한닢) 사용하기



elasticsearch 를 새로 설치하면서 한국어 형태소 open plugin 은전한닢도 같이 설치하였다. 

은전한닢 프로젝트는 검색에 사용할 만한 오픈소스 한국어 분석기를 만드는 프로젝트로 

형태소 분석과 사용자 사전등의 기능을 제공하고 있다. 


은전한닢 프로젝트 홈페이지 바로가기


elasticsearch 사용버전: 2.3.2

은전한닢 plugin 버전: 2.3.2.1


https://bitbucket.org/eunjeon/seunjeon/src/ad2e2655ac940d2a6cc8d002c1dad1b5f807a01c/elasticsearch/?at=es-2.3.3.0


아래는 형태소 분석기 옵션이다. 




index_poses 옵션에서는 추출할 품사를 선택할 수 있는데 아래는 선택 가능한 품사 리스트이다.