분류 전체보기
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 5. 한국어 word2vec 데모 사이트 만들기프로그래밍/자연어처리 2017. 4. 7. 17:05
한국어 뉴스 데이터로 딥러닝 시작하기 5. 한국어 word2vec 데모 만들기 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기 아래 doc2vec 모델 훈련하기 포스팅에서 훈련시킨 doc2vec model (word2vec 포멧으로 저장버전)을 이용해서 한국어 word2vec 데모 페이지를 만들었습니다. 한국어 word2vec 데모 이동하기 위키 뉴스와 경제 신문으로 훈련을 시켰고 데모 사이트는 flask 를 사용하여 제작했습니다. (참고사이트 바로가기: https://github.com/3Top/word2vec-api) 현재 지원하는 기능은 단어를 입력하면 벡터 공간에서 제일 가까이 ..
-
weka 메모리 사이즈 증가하기 ( Java heap space 오류 관련)프로그래밍/자연어처리 2017. 4. 2. 10:48
weka를 사용할 때 간혹 아래와 같은 java heap space 에러가 나는 경우가 있다. 에러가 없더라도 데이터 사이즈가 큰 경우 메모리는 충분한 사이즈로 세팅하는 것이 좋다. java.lang.OutOfMemoryError: Java heap space sun.awt.image.ImageRepresentation.setPixels(Unknown Source) sun.awt.image.ImageDecoder.setPixels(Unknown Source) sun.awt.image.GifImageDecoder.sendPixels(Unknown Source) sun.awt.image.GifImageDecoder.parseImage(Native Method) sun.awt.image.GifImageDeco..
-
자연어처리 오픈소스 프로젝트 시작하기프로그래밍/자연어처리 2017. 3. 10. 20:37
자연어처리 관련 오픈 소스 프로젝트 시작했습니다!프로젝트 주제는 일반인도 쉽게 사용하는 자연어 처리를 이용한 기계학습 입니다. 문서 기반의 classification 관련 작업들을 간단하게 할 수 있도록 document embedding + machine learning을 옵션으로 지정할 수 있게 하려고 일단은 생각 중입니다. 프로젝트 사이트: https://github.com/roboreport/doc2vec-api 깃허브 설명- https://guides.github.com/activities/hello-world/ - https://nolboo.kim/blog/2013/10/06/github-for-beginner/ - https://git-scm.com/book/ko/v2/Git의-기초-수정하고-..