23년 이전 글/모두의연구소 아이펠
-38일차- 추천 시스템 활용
가장 상업적인 성공을 거둔 머신러닝 알고리즘 콘텐츠 추천 알고리즘의 진화 협업 필터링 방식과 콘텐츠 기반 필터링 방식의 주요 차이점 협업 필터링은 사용자의 아이템 구매 이력 정보 만으로 사용자간 유사성 및 아이템 간 유사성을 파악 콘텐츠 기반 필터링은 아이템의 고유 정보를 바탕으로 아이템 간 유사성 파악 협업 필터링의 제약 조건 시스템이 충분한 정보를 모으지 못하여 추론을 할 수 없는 콜드 스타트일 때 계산량이 너무 많아 추천의 효율이 떨어질 때 사용자 관심이 저조한 항목의 정보가 부족하여 추천에서 배제될 때 유튜브 뮤직에서 좋아하는 아티스트의 정보를 요구하는 이유 첫 사용자라면 초기 정보가 없기 때문에 맞춤형 서비스를 제공하기 위해서 맞춤형 추천을 제공하지 못하면 처음 추천받은 콘텐츠 위주로 시청해서,..
-37일차- 추천시스템
추천시스템이란? 사용자에게 관련된 아이템을 추천해 주는 것 추천 로직에서 범주형 데이터로 다루기 영화와 유저 데이터는 이산적이고, 범주형 데이터임 숫자 벡터로 변환 뒤 유사도를 계산 범주형 데이터들을 숫자로 이루어진 벡터로 변환 후 거리를 계산하여 유사도 계산 코사인 유사도 두 벡터의 방향이 이루는 각에 코사인을 취해 구하는 유사도로 방향이 동일할 경우 1, 90도 각을 이루면 0, 180도면 -1의 값을 갖게 됨 from numpy import dot from numpy.linalg import norm def cos_sim(A, B): return dot(A, B)/(norm(A)*norm(B)) cos_sim(t1, t2) #result 0.7745966692414834 사이킷런 활용 from sk..
-35일차- QnA 봇 만들기
KorQuAD, BERT, Pretrained Model KorQuAD(The Korean Question Answering Dataset) 미국 스탠퍼드 대학에서 구축한 대용량 데이터셋인 SQuAD를 벤치마킹한 것 KorQuAD What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic korquad.github.io 총 100000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 wikipedia article..
-34일차- Likelihood(MLE, MAP)
머신러닝 머신러닝의 목표 모델이 표현하는 확률 분포를 데이터의 실제 분포에 가깝게 만드는 최적의 파라미터 값을 찾는 것 확률 변수로서의 모델 파라미터 R제곱 공간 안의 모든 점들은 일차함수들로 이루어진 함수 공간의 서로 다른 원소들에 대응됨 2차원 평면 위의 모든 점(a, b)이 하나의 일차함수 f에 대응 a,b가 위치하는 R제곱 공간을 파라미터 공간이라고 할 경우 두점 a, b를 뽑아 y=ax + b 그래프 그려보기 import numpy as np import matplotlib.pyplot as plt parameter_points = [] fig1, axes1 = plt.subplots(2, 5, figsize=(10, 4)) for ax in axes1.flatten(): # np.random...