위키피디아
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 2. 위키 덤프 데이터 파싱하기프로그래밍/자연어처리 2016. 12. 8. 12:12
한국어 뉴스 데이터로 딥러닝 시작하기 2. 위키 덤프 데이터 파싱하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 이전 포스팅에서 다운로드 받았던 위키 덤프 데이터를 훈련 데이터로 사용하기 위해서는 일단 덤프 데이터를 파싱해야 합니다. 다행히 세상에는 좋은 오픈 소스들이 많기 때문에 그 중 하나인 Wikipedia_Extractor 를 사용해 보겠습니다. Wikipedia_Extractor는 python 기반의 open source로 위키 덤프에서 위키 문서의 제목과 본문만 clean text로 추출합니다. 홈페이지: http://medialab.di.unipi.it/wiki/Wikipedia_Extractorgithub : https://github.com/attardi/wikiextractor py..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 1. 한국어 위키피디아 덤프 다운로드 받기프로그래밍/자연어처리 2016. 12. 7. 16:43
한국어 뉴스 데이터로 딥러닝 시작하기 뉴스 데이터를 이용하여 간단하게 딥러닝 알고리즘으로 classification 하는 과제를 수행해보고자 한다. 자연어를 처리하기 위해서는 단어나 문서를 vector로 변환을 해야 하는데이러한 변환 과정을 word embedding이라고 한다. 최근 deep learning에서는 word embedding을 위해서 word2vec, doc2vec 모델을 주로 사용하기 때문에 doc2vec 모델로 진행해보려고 한다. 1. training data 수집 doc2vec model 훈련을 위해서는 형태소 태깅된 데이터가 필요하다. 일단 한국어 위키를 다운받아 형태소 태깅을 진행하려고 한다. 위키피디아는 정기적으로 덤프 파일로 릴리즈 한다. 언어마다 릴리즈 주기가 다르긴 하지만..