DAY59. Python TextMining Cosine similarity (코사인 유사도)

데이터분석가 과정/Python

DAY59. Python TextMining Cosine similarity (코사인 유사도)

LEE_BOMB 2021. 12. 14. 20:19

cosine_similarity

<작업절차>
1. 대상 문서(자연어) -> 희소행렬(DTM:문서단어행렬)
2. 코사인 유사도 적용
-> 문서를 구성하는 단어들 간의 유사도 측정(-1 ~ +1)

from sklearn.feature_extraction.text import TfidfVectorizer #class. 희소행렬(sparse matrix)
from sklearn.metrics.pairwise import cosine_similarity #function. 코사인 유사도

문장(sentence) : 3개 문장(자연어)

sentences = [
    "Mr. Green killed Colonel Mustard in the study with the candlestick. Mr. Green is not a very nice fellow.",
    "Professor Plum has a green plant in his study.",
    "Miss Scarlett watered Professor Plum's green plant while he was away from his office last week."
]

print(sentences)
len(sentences) #3개 문장

1. 대상 문서(자연어) -> 희소행렬(DTM:문서단어행렬)

tfidf = TfidfVectorizer() #1) 단어생성기

단어 보기

fit = tfidf.fit(sentences) #문장 적용 
voca = fit.vocabulary_
print(voca)

#2) 희소행렬(DTM)

sp_mat = tfidf.fit_transform(sentences) #문장 적용 
print(sp_mat)

(행,열)
(0, 3) 0.2205828828763741

scipy -> numpy

sp_mat_arr = sp_mat.toarray()
print(sp_mat_arr)
sp_mat_arr.shape #(3, 31) -> (문서개수, 단어개수)

2. 코사인 유사도 적용
1) 검색쿼리 : 검색할 문서

query = ['green plant in his study']

2) 희소행렬(DTM)

query_sp_mat = tfidf.transform(query) #주의 : 함수명

numpy 행렬

query_sp_mat_arr = query_sp_mat.toarray()

3) 코사인 유사도 계산

sim = cosine_similarity(query_sp_mat_arr, sp_mat_arr)
print(sim) #[[0.25069697 0.74327606 0.24964024]]
sim.shape #(1, 3)

2d -> 1d

sim1d = sim.reshape(3)
sim1d # [0.25069697, 0.74327606, 0.24964024]

4) 내림차순 정렬(색인 기준)

sim_idx = sim1d.argsort()[::-1] #[1, 0, 2]

5) query와 가장 유사도가 높은 순으로 문장 검색

for idx in sim_idx : 
    print(f'유사도 : {sim1d[idx]}, 문장 : {sentences[idx]}')

movie recomm

유사 문서 검색 시스템

영화 검색(추천) 시스템 : 코사인 유사도 기반
ex) 영화 키워드 -> 영화 후기 텍스트에서 관련 영화 줄거리 제공

import pandas as pd #csv file rad
from sklearn.feature_extraction.text import TfidfVectorizer #class. 희소행렬(sparse matrix) 
from sklearn.metrics.pairwise import cosine_similarity #function. 코사인 유사도

1. dataset load

data = pd.read_csv(r'C:\ITWILL\4_Python-2\data\movie_reviews.csv')
data.info()

RangeIndex: 1492 entries, 0 to 1491
Data columns (total 3 columns):
#   Column   Non-Null Count  Dtype
---  ------   --------------  -----
0   reviews  1492 non-null   object : 영화후기
1   title    1492 non-null   object : 영화제목
2   label    1492 non-null   int64  : 긍정/부정

data.head()

2. 전처리 : 결측치 제거

data_df = data.dropna()
data_df.info()

3. 희소행렬(DTM) : reviews 대상

reviews = data_df['reviews']
print(reviews)

1) 단어생성기-불용어 제거

tfidf = TfidfVectorizer(stop_words='english')

2) 희소행렬(sparse matrix)

movie_sm = tfidf.fit_transform(reviews)
movie_sm.shape #(1492, 34641) - DTM

numpy array 변환

movie_sm_arr = movie_sm.toarray()
movie_sm_arr.shape #(1492, 34641) - DTM 
print(movie_sm_arr)

title = data_df['title'] #영화제목

#4. query 작성 -> 희소행렬 -> 유사도계산 -> Top5 영화 추천

def movie_search(query) :
    #1) query 작성
    user_query = [query]
    
    #2) query 희소행렬 
    query_sm = tfidf.transform(user_query)
    query_sm_arr = query_sm.toarray() #numpy array 
    
    #3) 코사인 유사도 
    sim = cosine_similarity(query_sm_arr, movie_sm_arr)
    print(sim.shape) #(1, 1492)
    #2d -> 1d
    sim1d = sim.reshape(1492)
    
    #4) 내림차순 정렬 : index 정렬
    sim_idx = sim1d.argsort()[::-1] 
    print('top5 index : ', sim_idx[:5])
    #top5 index :  [1281 1304  373  554  260]
    
    #5) Top5 영화추천하기 
    for idx in sim_idx[:5] :
        print(f'유사도 : {sim1d[idx]}, 영화제목 : {title[idx]}')

함수 호출 : 영화관련 키워드(키보드 입력)

movie_search(input('search query input : '))

search query input : action
유사도 : 0.20192921485638887, 영화제목 : Soldier (1998)
유사도 : 0.1958404700223592, 영화제목 : Romeo Must Die (2000)
유사도 : 0.18885169874338412, 영화제목 : Aliens (1986)
유사도 : 0.18489066174805405, 영화제목 : Speed 2: Cruise Control (1997)
유사도 : 0.16658803590038168, 영화제목 : Total Recall (1990)

search query input : drama
유사도 : 0.1931737274266525, 영화제목 : Apollo 13 (1995)
유사도 : 0.11796112357272329, 영화제목 : Double Jeopardy (1999)
유사도 : 0.11374906390472769, 영화제목 : Practical Magic (1998)
유사도 : 0.11037479275255738, 영화제목 : Civil Action, A (1998)
유사도 : 0.09607905933279662, 영화제목 : Truman Show, The (1998)

word2vec

유사 단어 검색
1. pip install gensim
2. spyder 에서 import

Word2Vec 알고리즘
1. CBOW
2. Skip-Gram

from gensim.models import Word2Vec #유사단어 예측 모델 

import nltk #nltk(Natural Langualge Toolkit) : 자연어 처리 도구 
nltk.download('punkt') #nltk data download
from nltk.tokenize import word_tokenize #문장 -> 단어 추출 
from nltk.tokenize import sent_tokenize #텍스트 -> 문장 추출 
import pandas as pd #csv file read

1. dataset load
출처 : https://www.kaggle.com/rounakbanik/the-movies-dataset

data = pd.read_csv('C:/ITWILL/4_Python-2/data/movies_metadata.csv') 
data.info()

RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):

2. 변수 선택 & 전처리

df = data[['title', 'overview']] #영화 제목, 줄거리만 추출
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44506 entries, 0 to 45465
Data columns (total 2 columns):
#   Column    Non-Null Count  Dtype
---  ------    --------------  -----
0   title     44506 non-null  object : 영화 제목
1   overview  44506 non-null  object : 영화 줄거리

df.head()

3. 토큰(token) 생성
sentendce -> word

sent = "my name is hong." 
words = word_tokenize(sent) 
print(words) #['my', 'name', 'is', 'hong', '.']
len(words) #5

2) text -> sentence

text = "my name is hong. my hobby is reading."
sents = sent_tokenize(text)
print(sents) #['my name is hong.', 'my hobby is reading.']

3) overview 단어 벡터 생성

overview = df['overview'].tolist() #colums -> list 변환
overview[:5]
len(overview) #44506

result = [] #단어 벡터 저장
for row in overview :
    words = word_tokenize(row) #문장 -> 단어 추출
    result.append(words) #[[1.단어벡터], [2.단어벡터]...]
print(result)

result[0] #첫번째 문장의 단어 벡터
result[-1] #마지막 문장의 단어 벡터

4. word2vec 모델 생성

model = Word2Vec(sentences=result, window = 5, min_count = 1, sg = 1)

sentences : 단어 벡터
window : 1회 학습할 단어 수
min_count : 최소 출현 빈도수
sg : 0-CBOW, 1-Skip-Gram

5. 유사 단어 검색

def word_search(keyword) :
    search_re = model.wv.most_similar([keyword])
    print('top5 :', search_re[:5])
    
word_search(input('key word input :')) #husband -> woman -> success

('top5 : ', word_search[:5])
top5 :  [('boyfriend', 0.8590863347053528),
         ('lover', 0.8467974066734314),
         ('fiancé', 0.7997056245803833),
         ('ex-husband', 0.7850815653800964),
         ('fiance', 0.7803053855895996)]

print('top5 : ', word_search[:5])
top5 :  [('man', 0.8099219799041748),
         ('girl', 0.7905499339103699),
         ('schoolgirl', 0.7901395559310913),
         ('lady', 0.7746134996414185),
         ('spinster', 0.7675780653953552)]

('top5 : ', word_search[:5])
top5 :  [('fame', 0.8123695850372314),
         ('stardom', 0.7987002730369568),
         ('commercial', 0.7903648614883423),
         ('popularity', 0.7882120609283447),
         ('achieves', 0.7871276140213013)]

저작자표시