프로그래밍
-
리눅스에서 오래된 로그 주기적으로 정리하기프로그래밍/Linux 2016. 12. 25. 17:42
리눅스에서 cron작업을 하다보면 로그가 쌓일 경우가 있다. 단기간에 확인이 필요한 로그가 아니면 서버 저장공간을 아끼기 위해서오래된 로그들은 삭제하거나 백업 폴더로 옮기는 스크립트를 걸어두는 것이 좋다. 일단 find로 오래된 로그를 찾아보자. find는 특정 조건을 찾는 명령어로 기본구문은 아래와 같다. find [options] [path] [expression] expression 중에 mtime 이라는 옵션을 사용하면 수정된 날짜를 참조해서 (로그일 경우 로그 생성 날짜) 파일을 찾을 수 있다. mtime +7 이면 수정날짜가 7일은 지난 파일들을 의미하고mtime -7 이면 수정날짜가 7일 이내인 최신 파일들을 의미한다. exec 옵션을 사용하면 위 조건으로 찾은 파일들로 어떤 명령을 내릴지 ..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기프로그래밍/자연어처리 2016. 12. 11. 21:42
한국어 뉴스 데이터로 딥러닝 시작하기 3. 위키 데이터 한국어 형태소 태깅하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기 doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다. 위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진 mecab 오픈 소스를 사용해 보겠습니다. 설치 및 사용방법은 아래 사이트를 참고하였습니다. https://bitbucket.org/eunjeon/mecab-ko-dic mecab 사이트 바로가기: https://bitbucket.org/eunjeon/mecab-ko/overview mecab 다운로드 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 2. 위키 덤프 데이터 파싱하기프로그래밍/자연어처리 2016. 12. 8. 12:12
한국어 뉴스 데이터로 딥러닝 시작하기 2. 위키 덤프 데이터 파싱하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 이전 포스팅에서 다운로드 받았던 위키 덤프 데이터를 훈련 데이터로 사용하기 위해서는 일단 덤프 데이터를 파싱해야 합니다. 다행히 세상에는 좋은 오픈 소스들이 많기 때문에 그 중 하나인 Wikipedia_Extractor 를 사용해 보겠습니다. Wikipedia_Extractor는 python 기반의 open source로 위키 덤프에서 위키 문서의 제목과 본문만 clean text로 추출합니다. 홈페이지: http://medialab.di.unipi.it/wiki/Wikipedia_Extractorgithub : https://github.com/attardi/wikiextractor py..