은전한잎
-
elasticsearch 5.1.0 설치하기프로그래밍/검색 2017. 5. 21. 17:05
elasticsearch 기능들이 빠르게 발전하고 있는 것은 다행이긴 하나 매번 주요 기능들이 릴리즈될 때마 새로 확인하면서 설치 및 색인 하는것이 좀 번거롭긴 하다. 그래도 5 버전에는 인덱스/검색 속도 및 성능이 개선되었다고 하니귀찮음을 무릅쓰고 5.1.0 버전으로 다시 설치를 해보겠다. 5.4가 최신 버전인데 5.1을 설치한 이유는 한국어형태소분석기 은전한잎 최신버전이 5.1을 지원하기 때문이다 wget "https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.1.0.tar.gz" tar zxvf elasticsearch-5.4.0.tar.gz #은전한잎 플러그인 설치 ./bin/elasticsearch-plugin install ..
-
mecab에 사용자사전/기분석 추가하기프로그래밍/자연어처리 2017. 2. 20. 16:28
형태소 분석으로 띄어쓰기를 하다보면 간혹 붙어야 할 것 같은애들이 띄어서 나오는 현상들을 발견할 수 있다. (주로 외래어) 또는 떨어져 줬으면 하는 애들이 붙어서 나올 수도 있을 것이다. 이럴 경우 자신이 원하는 방식으로 띄어쓰기가 되도록 수정하려면사용자 사전에 해당 단어들을 추가하면 된다. 뉴스 분석을 하면서 회사 이름을 붙여서 분석을 하고 싶어 mecab 사전에 회사 이름 사용자 사전을 추가하려고 한다. 사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 사용자 사전의 위치는 mecab-ko-dic 압축파일을 푼 디렉토리에 있다. (mecab을 돌릴..