프로그래밍
-
한국어형태소 분석기 mecab 태그셋프로그래밍/자연어처리 2017. 4. 14. 14:47
사전에 들어가는 단어 형식 확인하기 https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=6 1.6 버전의 태그셋 태깅셋 예시 부국증권 NNP,*,T,부국증권,*,*,*,*경영 NNG,*,T,경영,*,*,*,*권 XSN,*,T,권,*,*,*,*위 NNG,*,F,위,*,*,*,*기설 NNG,*,T,기설,*,*,*,*부각 NNG,*,T,부각,*,*,*,*… SE,*,*,*,*,*,*,*왜 MAG,문장부사/양상부사,F,왜,*,*,*,*? SF,*,*,*,*,*,*,*EOS 강윤근 NNP,인명,T,강윤근,*,*,*,*㈜ SY,*,*,*,*,*,*,*화승알앤에이 NNP,*,F,화승알앤에이,*,*,*,*..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05
한국어 뉴스 데이터로 딥러닝 시작하기 5. 한국어 word2vec 데모 만들기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기 아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 한국어 word2vec 데모 페이지를 만들었습니다. 한국어 word2vec 데모 이동하기 위키 뉴스와 경제 신문으로 훈련을 시켰고 데모 사이트는 flask 를 사용하여 제작했습니다. (참고사이트 바로가기: https://github.com/3Top/word2vec-api) 현재 지원하는 기능은 단어를 입력하면 벡터 공간에서 제일 가까이 ..
-
weka 메모리 사이즈 증가하기 ( Java heap space 오류 관련)프로그래밍/자연어처리 2017. 4. 2. 10:48
weka를 사용할 때 간혹 아래와 같은 java heap space 에러가 나는 경우가 있다. 에러가 없더라도 데이터 사이즈가 큰 경우 메모리는 충분한 사이즈로 세팅하는 것이 좋다. java.lang.OutOfMemoryError: Java heap space sun.awt.image.ImageRepresentation.setPixels(Unknown Source) sun.awt.image.ImageDecoder.setPixels(Unknown Source) sun.awt.image.GifImageDecoder.sendPixels(Unknown Source) sun.awt.image.GifImageDecoder.parseImage(Native Method) sun.awt.image.GifImageDeco..