프로그래밍/자연어처리
-
weka 메모리 사이즈 증가하기 ( Java heap space 오류 관련)프로그래밍/자연어처리 2017. 4. 2. 10:48
weka를 사용할 때 간혹 아래와 같은 java heap space 에러가 나는 경우가 있다. 에러가 없더라도 데이터 사이즈가 큰 경우 메모리는 충분한 사이즈로 세팅하는 것이 좋다. java.lang.OutOfMemoryError: Java heap space sun.awt.image.ImageRepresentation.setPixels(Unknown Source) sun.awt.image.ImageDecoder.setPixels(Unknown Source) sun.awt.image.GifImageDecoder.sendPixels(Unknown Source) sun.awt.image.GifImageDecoder.parseImage(Native Method) sun.awt.image.GifImageDeco..
-
자연어처리 오픈소스 프로젝트 시작하기프로그래밍/자연어처리 2017. 3. 10. 20:37
자연어처리 관련 오픈 소스 프로젝트 시작했습니다!프로젝트 주제는 일반인도 쉽게 사용하는 자연어 처리를 이용한 기계학습 입니다. 문서 기반의 classification 관련 작업들을 간단하게 할 수 있도록 document embedding + machine learning을 옵션으로 지정할 수 있게 하려고 일단은 생각 중입니다. 프로젝트 사이트: https://github.com/roboreport/doc2vec-api 깃허브 설명- https://guides.github.com/activities/hello-world/ - https://nolboo.kim/blog/2013/10/06/github-for-beginner/ - https://git-scm.com/book/ko/v2/Git의-기초-수정하고-..
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 4. doc2vec 모델 훈련하기프로그래밍/자연어처리 2017. 3. 3. 13:42
한국어 뉴스 데이터로 딥러닝 시작하기 4. doc2vec 모델 훈련하기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기 word2vec이나 doc2vec을 사용하기 위해서는 gensim 패키지를 설치해야한다. gensim은 topic modeling 관련 corpus 및 알고리즘들이 포함되어 있는 파이썬 패키지이다. 아래 gensim 설치 페이지를 참고해서 gensim을 설치하자. gensim 설치 페이지 바로가기 아래는 doc2vec 관련 사이트들이다. 특히 doc2vec 사용 예제 스크립트는 정말 유용하니 doc2vec 사용시 참고하면 좋을 것이다. doc2vec API https://radimrehurek.com..