한국어 형태소분석기
-
mecab에 사용자사전/기분석 추가하기프로그래밍/자연어처리 2017. 2. 20. 16:28
형태소 분석으로 띄어쓰기를 하다보면 간혹 붙어야 할 것 같은애들이 띄어서 나오는 현상들을 발견할 수 있다. (주로 외래어) 또는 떨어져 줬으면 하는 애들이 붙어서 나올 수도 있을 것이다. 이럴 경우 자신이 원하는 방식으로 띄어쓰기가 되도록 수정하려면사용자 사전에 해당 단어들을 추가하면 된다. 뉴스 분석을 하면서 회사 이름을 붙여서 분석을 하고 싶어 mecab 사전에 회사 이름 사용자 사전을 추가하려고 한다. 사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 사용자 사전의 위치는 mecab-ko-dic 압축파일을 푼 디렉토리에 있다. (mecab을 돌릴..
-
elasticsearch 2.3.2 에 한국어 형태소 (은전한닢) 사용하기프로그래밍/검색 2016. 10. 8. 12:30
elasticsearch 를 새로 설치하면서 한국어 형태소 open plugin 은전한닢도 같이 설치하였다. 은전한닢 프로젝트는 검색에 사용할 만한 오픈소스 한국어 분석기를 만드는 프로젝트로 형태소 분석과 사용자 사전등의 기능을 제공하고 있다. 은전한닢 프로젝트 홈페이지 바로가기 elasticsearch 사용버전: 2.3.2은전한닢 plugin 버전: 2.3.2.1 https://bitbucket.org/eunjeon/seunjeon/src/ad2e2655ac940d2a6cc8d002c1dad1b5f807a01c/elasticsearch/?at=es-2.3.3.0 아래는 형태소 분석기 옵션이다. index_poses 옵션에서는 추출할 품사를 선택할 수 있는데 아래는 선택 가능한 품사 리스트이다.