프로그래밍
-
한국어 뉴스 데이터로 딥러닝 시작하기 - 1. 한국어 위키피디아 덤프 다운로드 받기프로그래밍/자연어처리 2016. 12. 7. 16:43
한국어 뉴스 데이터로 딥러닝 시작하기 뉴스 데이터를 이용하여 간단하게 딥러닝 알고리즘으로 classification 하는 과제를 수행해보고자 한다. 자연어를 처리하기 위해서는 단어나 문서를 vector로 변환을 해야 하는데이러한 변환 과정을 word embedding이라고 한다. 최근 deep learning에서는 word embedding을 위해서 word2vec, doc2vec 모델을 주로 사용하기 때문에 doc2vec 모델로 진행해보려고 한다. 1. training data 수집 doc2vec model 훈련을 위해서는 형태소 태깅된 데이터가 필요하다. 일단 한국어 위키를 다운받아 형태소 태깅을 진행하려고 한다. 위키피디아는 정기적으로 덤프 파일로 릴리즈 한다. 언어마다 릴리즈 주기가 다르긴 하지만..
-
c#에서 mysql (MySqlCommand) 사용하기 예시프로그래밍/DB 2016. 11. 24. 21:22
c#에서 MySQL을 엑세스하기 위해서는 일반적으로 MySQL을 위한 ADO.NET 드라이버인 MySQL Connector/Net을 사용하는데, 이 MySQL Connector/Net은 MySQL 웹사이트에서 무료 다운 받아 설치할 수 있다. 드라이버를 설치한 후에 C# 프로젝트에서 MySql.Data.dll를 참조한 후 MySql.Data.MySqlClient 네임스페이스를 참조하면, MySQL버젼의 ADO.NET 클래스들 (예: MySqlConnection, MySqlCommand, MySqlDataReader 등)을 이용할 수 있다. 1. mysql connectin을 만든다. connection이 정상적으로 열리지 않을 경우 에러 메세지 출력 MySqlConnection conn = new MyS..
-
elasticsearch 2.3.2 에 한국어 형태소 (은전한닢) 사용하기프로그래밍/검색 2016. 10. 8. 12:30
elasticsearch 를 새로 설치하면서 한국어 형태소 open plugin 은전한닢도 같이 설치하였다. 은전한닢 프로젝트는 검색에 사용할 만한 오픈소스 한국어 분석기를 만드는 프로젝트로 형태소 분석과 사용자 사전등의 기능을 제공하고 있다. 은전한닢 프로젝트 홈페이지 바로가기 elasticsearch 사용버전: 2.3.2은전한닢 plugin 버전: 2.3.2.1 https://bitbucket.org/eunjeon/seunjeon/src/ad2e2655ac940d2a6cc8d002c1dad1b5f807a01c/elasticsearch/?at=es-2.3.3.0 아래는 형태소 분석기 옵션이다. index_poses 옵션에서는 추출할 품사를 선택할 수 있는데 아래는 선택 가능한 품사 리스트이다.