MeCab
-
한국어형태소 분석기 mecab 태그셋프로그래밍/자연어처리 2017. 4. 14. 14:47
사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 1.6 버전의 태그셋 태깅셋 예시 부국증권 NNP,*,T,부국증권,*,*,*,*경영 NNG,*,T,경영,*,*,*,*권 XSN,*,T,권,*,*,*,*위 NNG,*,F,위,*,*,*,*기설 NNG,*,T,기설,*,*,*,*부각 NNG,*,T,부각,*,*,*,*… SE,*,*,*,*,*,*,*왜 MAG,문장부사/양상부사,F,왜,*,*,*,*? SF,*,*,*,*,*,*,*EOS 강윤근 NNP,인명,T,강윤근,*,*,*,*㈜ SY,*,*,*,*,*,*,*화승알앤에이 NNP,*,F,화승알앤에이,*,*,*,*..
-
mecab에 사용자사전/기분석 추가하기프로그래밍/자연어처리 2017. 2. 20. 16:28
형태소 분석으로 띄어쓰기를 하다보면 간혹 붙어야 할 것 같은애들이 띄어서 나오는 현상들을 발견할 수 있다. (주로 외래어) 또는 떨어져 줬으면 하는 애들이 붙어서 나올 수도 있을 것이다. 이럴 경우 자신이 원하는 방식으로 띄어쓰기가 되도록 수정하려면사용자 사전에 해당 단어들을 추가하면 된다. 뉴스 분석을 하면서 회사 이름을 붙여서 분석을 하고 싶어 mecab 사전에 회사 이름 사용자 사전을 추가하려고 한다. 사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 사용자 사전의 위치는 mecab-ko-dic 압축파일을 푼 디렉토리에 있다. (mecab을 돌릴..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기프로그래밍/자연어처리 2016. 12. 11. 21:42
한국어 뉴스 데이터로 딥러닝 시작하기 3. 위키 데이터 한국어 형태소 태깅하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기 doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다. 위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진 mecab 오픈 소스를 사용해 보겠습니다. 설치 및 사용방법은 아래 사이트를 참고하였습니다. https://bitbucket.org/eunjeon/mecab-ko-dic mecab 사이트 바로가기: https://bitbucket.org/eunjeon/mecab-ko/overview mecab 다운로드 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko..