반응형
term count
-
sklearn CountVectorizer 클래스 사용법프로그래밍/자연어처리 2017. 2. 9. 13:34
Sklearn CountVectorizer 클래스 사용법 CountVectorizer 는 문서를 token count matrix로 변환하는 클래스입니다. 여기서 feature는 문장의 토큰 단위로 아래 TfidfVectorizer함수의 analyzer, tokenizer, token_pattern, stop_words 등의 분석 단계를 거쳐 나온 토큰들을 의미합니다. CountVectorizer 클래스 설명 문서 바로가기 feature extraction 설명 문서 바로가기 class sklearn.feature_extraction.text.CountVectorizer(input=u'content', encoding=u'utf-8', decode_error=u'strict', strip_accents=..