프로그래밍/자연어처리
-
한국어 NER 시작하기 - flair 사용방법프로그래밍/자연어처리 2024. 8. 23. 18:21
최근에 진행하는 프로젝트에서 다양한 태그(사람, 회사, 조직 등)를 지원하면서 성능이 좋은 한국어 NER 모델이 필요해졌습니다. 최근에 나온 NER 모델 위주로 사용방법과 성능 관련 내용을 정리해보겠습니다. Flair 소개 Flair는 자연어 처리(NLP) 작업을 간단하고 직관적으로 수행할 수 있도록 하는 Python 기반의 라이브러리입니다. 문장 임베딩(sentence embeddings), 이름된 엔티티 인식(NER), 텍스트 분류(text classification), 품사 태깅(POS tagging) 등의 작업을 지원합니다. 성능이 괜찮고 사용이 간단하다고 해서 사용해봤습니다. https://github.com/flairNLP/flair GitHub - flairNLP/flair:..
-
azure openai 사용하여 임베딩 변환하기프로그래밍/자연어처리 2024. 8. 20. 17:24
azure openai + postgreSQL를 사용해서 벡터검색 사용하기 azure openai에서 제공하는 임베딩 모델은 다음과 같습니다. azure openai 임베딩 모델 참고: https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models#model-summary-table-and-region-availability 임베딩 모델별 성능 비교 text-embedding-3-small은 효율성이 매우 높은 최신 임베딩 모델로, 2022년 12월에 출시된 text-embedding-ada-002 모델에 비해 크게 개선되었습니다. 성능 향상text-embedding-ada-002와 text-embedding-3-sm..
-
fasttext 사용하여 임베딩 하기프로그래밍/자연어처리 2022. 9. 24. 16:14
word embedding으로 word2vec을 주로 사용하다 fasttext가 괜찮다고 해서 사용해 보았다. word embedding은 비정형화된 text를 숫자로 바꿔주는 방법으로 텍스트를 기계 학습에 사용하기 위해서는 word embedding 과정을 거쳐야한다. word2vec은 희소한 단어를 임베딩 하기 어렵고 out-of-vocabulary(oov)를 처리하기 어렵다는 단점이 있었는데 fasttext는 단어 단위가 아니라 n-gram을 임베딩함으로써 각 단어는 embedding된 n-gram의 합으로 나타나서 빠르고 좋은 성능을 가진다고 한다. 그리고 oov 문제도 없다고 한다. fasttext 설치하기 리눅스(ubuntu) 기준으로 아래와 같이 설치를 하였다. root# git clone ..