mecab에 사용자사전/기분석 추가하기프로그래밍/자연어처리 2017. 2. 20. 16:28
형태소 분석으로 띄어쓰기를 하다보면 간혹 붙어야 할 것 같은애들이 띄어서 나오는 현상들을 발견할 수 있다. (주로 외래어) 또는 떨어져 줬으면 하는 애들이 붙어서 나올 수도 있을 것이다. 이럴 경우 자신이 원하는 방식으로 띄어쓰기가 되도록 수정하려면사용자 사전에 해당 단어들을 추가하면 된다. 뉴스 분석을 하면서 회사 이름을 붙여서 분석을 하고 싶어 mecab 사전에 회사 이름 사용자 사전을 추가하려고 한다. 사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 사용자 사전의 위치는 mecab-ko-dic 압축파일을 푼 디렉토리에 있다. (mecab을 돌릴..
sklearn CountVectorizer 클래스 사용법프로그래밍/자연어처리 2017. 2. 9. 13:34
Sklearn CountVectorizer 클래스 사용법 CountVectorizer 는 문서를 token count matrix로 변환하는 클래스입니다. 여기서 feature는 문장의 토큰 단위로 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pattern, stop_words 등의 분석 단계를 거쳐 나온 토큰들을 의미합니다. CountVectorizer 클래스 설명 문서 바로가기 feature extraction 설명 문서 바로가기 class sklearn.feature_extraction.text.CountVectorizer(input=u'content', encoding=u'utf-8', decode_error=u'strict', strip_accents=..
sklearn TF-IDF vectorizer 사용 예시프로그래밍/자연어처리 2017. 2. 8. 15:36
Sklearn TfidfVectorizer 클래스 사용법 TF-IDF vectorizer 는 문서를 tf-idf의 feature matrix로 변환하는 클래스입니다. 문서에 CountVectorizer를 사용하고 TfidfTransformer를 사용한 것과 똑같은 결과를 가집니다. ,where is the total number of documents, and is the number of documents that contain term . The resulting tf-idf vectors are then normalized by the Euclidean norm:. 여기서 feature는 문장의 토큰 단위로 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pa..