반응형
WordEmbedding
-
fasttext 사용하여 임베딩 하기프로그래밍/자연어처리 2022. 9. 24. 16:14
word embedding으로 word2vec을 주로 사용하다 fasttext가 괜찮다고 해서 사용해 보았다. word embedding은 비정형화된 text를 숫자로 바꿔주는 방법으로 텍스트를 기계 학습에 사용하기 위해서는 word embedding 과정을 거쳐야한다. word2vec은 희소한 단어를 임베딩 하기 어렵고 out-of-vocabulary(oov)를 처리하기 어렵다는 단점이 있었는데 fasttext는 단어 단위가 아니라 n-gram을 임베딩함으로써 각 단어는 embedding된 n-gram의 합으로 나타나서 빠르고 좋은 성능을 가진다고 한다. 그리고 oov 문제도 없다고 한다. fasttext 설치하기 리눅스(ubuntu) 기준으로 아래와 같이 설치를 하였다. root# git clone ..