한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기
한국어 뉴스 데이터로 딥러닝 시작하기
3. 위키 데이터 한국어 형태소 태깅하기
doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다.
위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진
mecab 오픈 소스를 사용해 보겠습니다.
설치 및 사용방법은 아래 사이트를 참고하였습니다.
https://bitbucket.org/eunjeon/mecab-ko-dic
mecab 사이트 바로가기:
https://bitbucket.org/eunjeon/mecab-ko/overview
: https://bitbucket.org/eunjeon/mecab-ko/downloads
# mecab 다운로드 받기
wget "https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz"
#설치하기
tar zxfv mecab-0.996-ko-0.9.2.tar.gz
cd mecab-0.996-ko-0.9.2
./configure
make
make check
make install
간단하게 mecab 설치가 완료 되었습니다.
한국어 형태소 분석기 (mecab)을 사용하기 위해서는
한국어 사전(mecab-ko-dic)도 같이 설치가 되어야합니다.
mecab-ko-dic 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic
mecab-ko-dic 다운로드 바로가기 : https://bitbucket.org/eunjeon/mecab-ko-dic/downloads
다운로드 및 설치 과정은 아래에 기록해 두었다.
// mecab-ko-dic 다운로드
wget "https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.0.1-20150920.tar.gz"
// 압축 풀기
#tar zxfv mecab-ko-dic-2.0.1-20150920.tar.gz
// 설치하기
#cd mecab-ko-dic-2.0.1-20150920
#./configure
#make
// 설치 과정중 아래와 같은 에러 발생하면 당황하지 말고
// sudo ldconfig로 라이브러리를 다시 링크하고 다시 make를 실행하면 된다
/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f UTF-8 -t UTF-8
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No
such file or directory
make: *** [model.bin] Error 127
# sudo ldconfig
done!
echo To enable dictionary, rewrite /usr/local/etc/mecabrc as \"dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic\"
To enable dictionary, rewrite /usr/local/etc/mecabrc as "dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic"
#make
#make install
한국어 사전 설치도 간단하게 완료 되었다.
이제 mecab을 실행해보자.
/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic
mecab-ko-dic은 MeCab을 사용하여, 한국어 형태소 분석을 하기 위한 프로젝트입니다.
mecab SL,*,*,*,*,*,*,*
- SY,*,*,*,*,*,*,*
ko SL,*,*,*,*,*,*,*
- SY,*,*,*,*,*,*,*
dic SL,*,*,*,*,*,*,*
은 JX,*,T,은,*,*,*,*
MeCab SL,*,*,*,*,*,*,*
을 JKO,*,T,을,*,*,*,*
사용 NNG,*,T,사용,*,*,*,*
하 XSV,*,F,하,*,*,*,*
여 EC,*,F,여,*,*,*,*
, SC,*,*,*,*,*,*,*
한국어 NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
형태소 NNG,*,F,형태소,Compound,*,*,형태/NNG/*+소/NNG/*
분석 NNG,*,T,분석,*,*,*,*
을 JKO,*,T,을,*,*,*,*
하 VV,*,F,하,*,*,*,*
기 ETN,*,F,기,*,*,*,*
위한 VV+ETM,*,T,위한,Inflect,VV,ETM,위하/VV/*+ᆫ/ETM/*
프로젝트 NNG,*,F,프로젝트,*,*,*,*
입니다 VCP+EF,*,F,입니다,Inflect,VCP,EF,이/VCP/*+ᄇ니다/EF/*
. SF,*,*,*,*,*,*,*
EOS
참고로 mecab 사용 옵션은 아래와 같습니다.
/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -h
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Copyright(C) 2001-2012 Taku Kudo
Copyright(C) 2004-2008 Nippon Telegraph and Telephone Corporation
Usage: mecab [options] files
-r, --rcfile=FILE use FILE as resource file
-d, --dicdir=DIR set DIR as a system dicdir
-u, --userdic=FILE use FILE as a user dictionary
-l, --lattice-level=INT lattice information level (DEPRECATED)
-D, --dictionary-info show dictionary information and exit
-O, --output-format-type=TYPE set output format type (wakati,none,...)
-a, --all-morphs output all morphs(default false)
-N, --nbest=INT output N best results (default 1)
-p, --partial partial parsing mode (default false)
-m, --marginal output marginal probability (default false)
-M, --max-grouping-size=INT maximum grouping size for unknown words (default 24)
-F, --node-format=STR use STR as the user-defined node format
-U, --unk-format=STR use STR as the user-defined unknown node format
-B, --bos-format=STR use STR as the user-defined beginning-of-sentence format
-E, --eos-format=STR use STR as the user-defined end-of-sentence format
-S, --eon-format=STR use STR as the user-defined end-of-NBest format
-x, --unk-feature=STR use STR as the feature for unknown word
-b, --input-buffer-size=INT set input buffer size (default 8192)
-P, --dump-config dump MeCab parameters
-C, --allocate-sentence allocate new memory for input sentence
-t, --theta=FLOAT set temparature parameter theta (default 0.75)
-c, --cost-factor=INT set cost factor (default 700)
-o, --output=FILE set the output file name
-v, --version show the version and exit.
-h, --help show this help and exit.
이제 이전 포스팅에서 위키데이터에서 추출했던 텍스트 파일을 형태소 태깅해보겠습니다.
위키 문서를 추출할때 단락 단위로 한 라인으로 저장되어 있어
input-buffer overflow.에러가 나와서 -b 옵션을 사용하여 input-buffer-size를 늘렸습니다.
/mecab/mecab-0.996-ko-0.9.2# mecab -d /usr/local/lib/mecab/dic/mecab-ko-dic -b 10240 < wiki.txt > wiki.pos
참고로 공백이나 형태소 단위로 토큰화된 한국어 위키 덤프 데이터 (문장만 포함)는 아래 github에 올려두었다.
앞으로 진행되는 다른 연재 자료들도 계속 추가할 예정이니 필요하신 분은 watch를 걸어주셍 : )
https://github.com/roboreport/doc2vec-api/
이제 형태소 태깅된 위키 파일로 doc2vec 모델을 훈련해보겠습니다.