프로그래밍/자연어처리
-
sklearn TF-IDF vectorizer 사용 예시프로그래밍/자연어처리 2017. 2. 8. 15:36
Sklearn TfidfVectorizer 클래스 사용법 TF-IDF vectorizer 는 문서를 tf-idf의 feature matrix로 변환하는 클래스입니다. 문서에 CountVectorizer를 사용하고 TfidfTransformer를 사용한 것과 똑같은 결과를 가집니다. ,where is the total number of documents, and is the number of documents that contain term . The resulting tf-idf vectors are then normalized by the Euclidean norm:. 여기서 feature는 문장의 토큰 단위로 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pa..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 3. 위키 데이터 한국어 형태소 태깅하기프로그래밍/자연어처리 2016. 12. 11. 21:42
한국어 뉴스 데이터로 딥러닝 시작하기 3. 위키 데이터 한국어 형태소 태깅하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기 doc2vec을 훈련하기 위해서는 형태소 태깅된 한국어 말뭉치가 필요합니다. 위키 데이터를 형태소 태깅하기 위해 elasticsearch로 이미 익숙해진 mecab 오픈 소스를 사용해 보겠습니다. 설치 및 사용방법은 아래 사이트를 참고하였습니다. https://bitbucket.org/eunjeon/mecab-ko-dic mecab 사이트 바로가기: https://bitbucket.org/eunjeon/mecab-ko/overview mecab 다운로드 사이트 바로가기 : https://bitbucket.org/eunjeon/mecab-ko..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 2. 위키 덤프 데이터 파싱하기프로그래밍/자연어처리 2016. 12. 8. 12:12
한국어 뉴스 데이터로 딥러닝 시작하기 2. 위키 덤프 데이터 파싱하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 이전 포스팅에서 다운로드 받았던 위키 덤프 데이터를 훈련 데이터로 사용하기 위해서는 일단 덤프 데이터를 파싱해야 합니다. 다행히 세상에는 좋은 오픈 소스들이 많기 때문에 그 중 하나인 Wikipedia_Extractor 를 사용해 보겠습니다. Wikipedia_Extractor는 python 기반의 open source로 위키 덤프에서 위키 문서의 제목과 본문만 clean text로 추출합니다. 홈페이지: http://medialab.di.unipi.it/wiki/Wikipedia_Extractorgithub : https://github.com/attardi/wikiextractor py..