gensim

    워드 임베딩

    벡터화 Bag of words / DTM(Document-Term Matrix) Bag of words를 사용하여 문서 간 유사도를 비교한 행렬을 만들면 이를 DTM(문서 단어 행렬)이라고 함 예시문장) 문서1 : you know I want your love 문서2 : I like you 문서3 : what should I do 불필요 단어 제거하거나 표현은 다르나 같은 뜻의 단어를 통합하는 전처리를 진행함 이는 단어 카운트에 기반한 방법론이기 때문 DTM의 행은 문서, 열은 단어를 표시하는 벡터가 되며, 이때 대부분의 값이 0이 되는 특징이 있는데 이를 희소 벡터(sparse vector)라고 함. 문서나 단어수가 많아질수록 0값이 많아지게 됨 또한 위 행렬에서는 단어 갯수에 대한 카운트가 없이 중복..