프로그래밍/자연어처리
-
자연어처리 관련 오픈소스 정리프로그래밍/자연어처리 2017. 12. 16. 18:38
자연어처리 관련 오픈소스 정리 1. koNLPy (한국어, python) : 한국어 정보 처리를 위한 파이썬 패키지말뭉치, 사전과 한국어 형태소들을 제공하고 있다. 홈페이지 바로가기 github 바로가기 데이터(말뭉치) - 한국법률 말뭉치, 대한민국 국회 의안 말뭉치 사전 - Hannanum 시스템 사전, Kkma 시스템 사전, Mecab 시스템 사전 형태소 분석기도 다양한 클래스를 제공하고 있는데 형태소 분석기 사용 비교도 참고할 만하다. 비교 자료로는 로딩/실행 시간과 몇 개의 사용 예제가 제공되고 있다. (형태소 태깅 정확도 정보가 없는 것은 아쉽다(...)) http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/#comparison-between-pos-taggin..
-
chatbot 만들기 - ( 0) 어떤 chatbot framework를 사용할 것인가?프로그래밍/자연어처리 2017. 10. 29. 21:23
지금 개발하는 부동산 정보 사이트에 마케팅 및 차별화 요소로 부동산 챗봇을 만들겠다고 생각하고 기존의 챗봇 플랫폼들을 찾아보았다. 대기업에서 지원하는 유명한 챗봇 개발 플랫폼만 5개가 있고 그 외 다른 다양한 기능들을 많은 플랫폼들이 있었다. 이중에서 과연 어떤 챗봇 개발 프레임워크를 사용할 것인가? 선택전에 원하는 사양을 순서대로 적어보았다. - 무료인가? - 기계 학습을 지원하는가? - 한국어를 지원하는가? - 대화 flow 기능(시나리오)을 지원하는가? - 언어는 python이나 php였음 좋겠다 - 다양한 플랫폼으로 integration됐으면 좋겠다. (페이스북이나 카카오톡 프랜즈에서 사용 가능하면 좋겠다) 그리고 주요 5개 플랫폼을 비교한 포스팅에서 아래의 비교 표를 참조하였다. 5개 챗봇 비교..
-
한국어 뉴스 데이터로 딥러닝 시작하기- 6. doc2vec으로 문사 유사도 측정하기프로그래밍/자연어처리 2017. 9. 11. 18:05
한국어 뉴스 데이터로 딥러닝 시작하기 6. doc2vec으로 문사 유사도 측정하기 과거 관련 포스팅 리스트 1. 한국어 위키 덤프 다운로드 받기 바로가기 2. 위키 덤프 데이터 파싱하기 바로가기3. 위키 데이터 한국어 형태소 태깅하기 바로가기4. doc2vec 모델 훈련하기5. 한국어 word2vec 데모 만들기 최근에 관심이 있는 프로젝트에서 부동산 관련 뉴스들만 자동으로 필터링 해야 하는데 doc2vec에서 있는 n_similarity 함수 기능이 생각나서 간만에 doc2vec API 문서 로 가보았습니다. ???? Deprecated 되고 다른 모듈로 기능이 옮겨졌네요 ㅠㅠ 넘 간만에 doc2vec을 사용했더니 ㄷㄷ 새로운 함수 설명으로 이동해봅니다. https://github.com/RaRe-Te..