반응형
위키 파서
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 2. 위키 덤프 데이터 파싱하기프로그래밍/자연어처리 2016. 12. 8. 12:12
한국어 뉴스 데이터로 딥러닝 시작하기 2. 위키 덤프 데이터 파싱하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 이전 포스팅에서 다운로드 받았던 위키 덤프 데이터를 훈련 데이터로 사용하기 위해서는 일단 덤프 데이터를 파싱해야 합니다. 다행히 세상에는 좋은 오픈 소스들이 많기 때문에 그 중 하나인 Wikipedia_Extractor 를 사용해 보겠습니다. Wikipedia_Extractor는 python 기반의 open source로 위키 덤프에서 위키 문서의 제목과 본문만 clean text로 추출합니다. 홈페이지: http://medialab.di.unipi.it/wiki/Wikipedia_Extractorgithub : https://github.com/attardi/wikiextractor py..