프로그래밍/자연어처리
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 1. 한국어 위키피디아 덤프 다운로드 받기프로그래밍/자연어처리 2016. 12. 7. 16:43
한국어 뉴스 데이터로 딥러닝 시작하기 뉴스 데이터를 이용하여 간단하게 딥러닝 알고리즘으로 classification 하는 과제를 수행해보고자 한다. 자연어를 처리하기 위해서는 단어나 문서를 vector로 변환을 해야 하는데이러한 변환 과정을 word embedding이라고 한다. 최근 deep learning에서는 word embedding을 위해서 word2vec, doc2vec 모델을 주로 사용하기 때문에 doc2vec 모델로 진행해보려고 한다. 1. training data 수집 doc2vec model 훈련을 위해서는 형태소 태깅된 데이터가 필요하다. 일단 한국어 위키를 다운받아 형태소 태깅을 진행하려고 한다. 위키피디아는 정기적으로 덤프 파일로 릴리즈 한다. 언어마다 릴리즈 주기가 다르긴 하지만..
-
weka - 신경망 이론 개념 이해하기 - perceptron프로그래밍/자연어처리 2016. 5. 1. 12:52
일단 웨카 실습으로 가기전에 간단하게 신경망 이론을 복습해보자. 신경망 이론은 신경세포를 모델링 하여 생성된 기계학습 방법으로 신경망은 신경세포를 모델링한 뉴론(neuron)이라는 단순한 unit들이 상호 연결연결된 망을 의미한다. 더 자세한 설명을 위해 아래에 책의 일부분을 발췌하였다. (참고: 패턴인식 개론: MATLAB 실습을 통한 입체적 학습) 생물학적인 신경세포는 수상돌기(dendrite), 축색돌기(axon) 그리고 세포체(cell body or soma)로 이루어져 있는데,수상돌기는 인접 뉴런으로부터 신경 흥분이 세포체로 입력되는 통로이며축색돌기는 가늘고 긴 신경섬유로 신경 흥분을 전달하는 역할을 한다. 세포체는 일정 시간동안 입력된 자격을 세포체 내에서 가중(weighted summatio..
-
weka 사용법 - arff 파일 생성 방법 및 오류 설명프로그래밍/자연어처리 2016. 2. 13. 22:05
WEKA(Waikato Environment for Knowledge Analysis)는 Waikato 대학교에서 개발한 기계학습 툴로 간단한 decision tree, neural network부터 support vector machine등의 다양한 기계학습 알고리즘을 제공하고 있다. 알고리즘이 달려져도 대부분 동일한 데이터 format을 사용하기 때문에 동일한 데이터에 여러 알고리즘을 적용해보고 결과를 비교해보기 편리하여 종종 사용하게 되는 것 같다. 다음은 기계학습에 사용할 데이터를 생성해보겠다. weka에서는 arff라는 특정 format의 데이터가 사용되는데 자세한 내용은 아래 웹사이트를 참조한다. 참고사이트1 바로가기 http://weka.wikispaces.com/ARFF참고사이트2 바로가기..