프로그래밍/자연어처리

한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기

kugancity 2016. 12. 11. 21:42
반응형


한국어 뉴스 데이터로 딥러닝 시작하기 



3. 위키 데이터 한국어 형태소 태깅하기 



1. 한국어 위키 덤프 다운로드 받기 바로가기  

2. 위키 덤프 데이터 파싱하기 바로가기


doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다. 

위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진 

mecab 오픈 소스를 사용해 보겠습니다. 




설치 및 사용방법은 아래 사이트를 참고하였습니다. 


https://bitbucket.org/eunjeon/mecab-ko-dic





mecab 사이트 바로가기: 

https://bitbucket.org/eunjeon/mecab-ko/overview


mecab 다운로드 사이트 바로가기 

:  https://bitbucket.org/eunjeon/mecab-ko/downloads





# mecab 다운로드 받기 

wget "https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz"


#설치하기


tar zxfv mecab-0.996-ko-0.9.2.tar.gz

 cd mecab-0.996-ko-0.9.2

 ./configure

 make

 make check

make install




간단하게 mecab 설치가 완료 되었습니다. 


한국어 형태소 분석기 (mecab)을 사용하기 위해서는 

한국어 사전(mecab-ko-dic)도 같이 설치가 되어야합니다. 


mecab-ko-dic 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic

mecab-ko-dic 다운로드 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic/downloads


다운로드 및 설치 과정은 아래에 기록해 두었다. 





//  mecab-ko-dic 다운로드 

 wget "https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.0.1-20150920.tar.gz"

 

// 압축 풀기 

#tar zxfv mecab-ko-dic-2.0.1-20150920.tar.gz

 

// 설치하기 

#cd mecab-ko-dic-2.0.1-20150920

 #./configure

#make


// 설치 과정중 아래와 같은 에러 발생하면 당황하지 말고 

// sudo ldconfig로 라이브러리를 다시 링크하고 다시 make를 실행하면 된다

/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f UTF-8 -t UTF-8

/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No 


such file or directory

make: *** [model.bin] Error 127

# sudo ldconfig


done!

echo To enable dictionary, rewrite /usr/local/etc/mecabrc as \"dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic\"

To enable dictionary, rewrite /usr/local/etc/mecabrc as "dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic"




#make

#make install






한국어 사전 설치도 간단하게 완료 되었다. 

이제 mecab을 실행해보자. 





/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic

mecab-ko-dic은 MeCab을 사용하여, 한국어 형태소 분석을 하기 위한 프로젝트입니다.

mecab   SL,*,*,*,*,*,*,*

-       SY,*,*,*,*,*,*,*

ko      SL,*,*,*,*,*,*,*

-       SY,*,*,*,*,*,*,*

dic     SL,*,*,*,*,*,*,*

은      JX,*,T,은,*,*,*,*

MeCab   SL,*,*,*,*,*,*,*

을      JKO,*,T,을,*,*,*,*

사용    NNG,*,T,사용,*,*,*,*

하      XSV,*,F,하,*,*,*,*

여      EC,*,F,여,*,*,*,*

,       SC,*,*,*,*,*,*,*

한국어  NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*

형태소  NNG,*,F,형태소,Compound,*,*,형태/NNG/*+소/NNG/*

분석    NNG,*,T,분석,*,*,*,*

을      JKO,*,T,을,*,*,*,*

하      VV,*,F,하,*,*,*,*

기      ETN,*,F,기,*,*,*,*

위한    VV+ETM,*,T,위한,Inflect,VV,ETM,위하/VV/*+ᆫ/ETM/*

프로젝트        NNG,*,F,프로젝트,*,*,*,*

입니다  VCP+EF,*,F,입니다,Inflect,VCP,EF,이/VCP/*+ᄇ니다/EF/*

.       SF,*,*,*,*,*,*,*

EOS




참고로 mecab 사용 옵션은 아래와 같습니다. 



/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -h

MeCab: Yet Another Part-of-Speech and Morphological Analyzer


Copyright(C) 2001-2012 Taku Kudo

Copyright(C) 2004-2008 Nippon Telegraph and Telephone Corporation


Usage: mecab [options] files

 -r, --rcfile=FILE              use FILE as resource file

 -d, --dicdir=DIR               set DIR  as a system dicdir

 -u, --userdic=FILE             use FILE as a user dictionary

 -l, --lattice-level=INT        lattice information level (DEPRECATED)

 -D, --dictionary-info          show dictionary information and exit

 -O, --output-format-type=TYPE  set output format type (wakati,none,...)

 -a, --all-morphs               output all morphs(default false)

 -N, --nbest=INT                output N best results (default 1)

 -p, --partial                  partial parsing mode (default false)

 -m, --marginal                 output marginal probability (default false)

 -M, --max-grouping-size=INT    maximum grouping size for unknown words (default 24)

 -F, --node-format=STR          use STR as the user-defined node format

 -U, --unk-format=STR           use STR as the user-defined unknown node format

 -B, --bos-format=STR           use STR as the user-defined beginning-of-sentence format

 -E, --eos-format=STR           use STR as the user-defined end-of-sentence format

 -S, --eon-format=STR           use STR as the user-defined end-of-NBest format

 -x, --unk-feature=STR          use STR as the feature for unknown word

 -b, --input-buffer-size=INT    set input buffer size (default 8192)

 -P, --dump-config              dump MeCab parameters

 -C, --allocate-sentence        allocate new memory for input sentence

 -t, --theta=FLOAT              set temparature parameter theta (default 0.75)

 -c, --cost-factor=INT          set cost factor (default 700)

 -o, --output=FILE              set the output file name

 -v, --version                  show the version and exit.

 -h, --help                     show this help and exit.





이제 이전 포스팅에서 위키데이터에서 추출했던 텍스트 파일을 형태소 태깅해보겠습니다. 

위키 문서를 추출할때 단락 단위로 한 라인으로 저장되어 있어

input-buffer overflow.에러가 나와서  -b 옵션을 사용하여 input-buffer-size를 늘렸습니다. 






/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -b 10240 < wiki.txt > wiki.pos




참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다. 

앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : ) 


github 바로가기 


 https://github.com/roboreport/doc2vec-api/




이제 형태소 태깅된 위키 파일로 doc2vec 모델을 훈련해보겠습니다.









728x90
반응형