80. Python TextMining 연습문제(2)

개인공부/Python

80. Python TextMining 연습문제(2)

LEE_BOMB 2021. 12. 14. 23:33

문4) review_data.csv 파일의 'review2' 칼럼을 대상으로 다음과 같이 단계별로 단어의 빈도수를 구하고, 단어 구름으로 시각화하시오.

import pandas as pd
from konlpy.tag import Okt
from wordcloud import WordCloud # class

1. file load

review_data = pd.read_csv('c:/ITWILL/4_Python-2/data/review_data.csv', 
                          encoding='utf-8')

review_data.info()

RangeIndex: 34525 entries, 0 to 34524
Data columns (total 4 columns):
#   Column   Non-Null Count  Dtype
---  ------   --------------  -----
0   id       34525 non-null  int64
1   review   34525 non-null  object
2   label    34525 non-null  int64
3   review2  34525 non-null  object

review2 칼럼 선택

review = review_data['review2']
len(review) #34525

okt = Okt()

2. 문장 추출 : Okt 클래스 이용
sent = okt.normalize(문단) #str

ex_sent = [okt.normalize(sent) for sent in review ]
len(ex_sent) #34525

3. 명사 추출 : Okt 클래스 이용
okt.nouns(문장)

ex_nouns = [] #단어 저장 

for sent in ex_sent : #문장 추출 
    for noun in okt.nouns(sent) : #단어 추출 
        ex_nouns.append(noun) #단어 저장 

len(ex_nouns) #210,849

문5) 한국영화 후기(review_data.csv) 파일을 대상으로 아래와 같은 조건으로 키워드를 입력하여 관련 영화 후기를 검색하는 함수를 정의하시오.

<조건1> 사용할 칼럼 : review2
<조건2> 사용할 문서 개수 : 1번째 ~ 5000번째
<조건3> 코사인 유사도 적용 - 영화 후기 검색 함수
-> 검색 키워드와 가장 유사도가 높은 상위 3개 review 검색
<조건4> 검색 키워드 : 액션영화, 시나리오, 중국영화
-> 위 검색 키워드를 하나씩 입력하여 관련 후기 검색

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

1. dataset load

data = pd.read_csv("c:/ITWILL/4_python-2/data/review_data.csv")
data.info() 
'''
 0   id       34525 non-null  int64 
 1   review   34525 non-null  object
 2   label    34525 non-null  int64 
 3   review2  34525 non-null  object -> 사용할 칼럼 
'''
print(data.head())

1. 사용할 문서 5,000개 제한

review = data.review2[:5000] #1번째 ~ 5000번째 문서

2. sparse matrix 생성 : review 칼럼 대상

obj = TfidfVectorizer()
sp_mat = obj.fit_transform(review)
sp_mat.shape #(5000, 19361)

numpy 희소행렬 변환

sp_mat_arr = sp_mat.toarray()

3. cosine 유사도 : 영화 후기 검색 함수

def review_search(query) : 
    query_data = [query]
    query_sm = obj.transform(query_data)
    query_sm_arr = query_sm.toarray()
    
    sim = cosine_similarity(query_sm_arr, sp_mat_arr)
    sim = sim.squeeze() #2d -> 1d : 차원수가 1인 차원 제거 
    #2d(1, 19361) -> 1d(19361,)
    
    sim_idx = sim.argsort()[::-1]
    
    for idx in sim_idx[:3] : #top3
        print(f'sim : {sim[idx]}, review : {review[idx]}')

4. 검색 키워드 : 액션영화, 시나리오, 중국영화

review_search(input('검색할 키워드 입력 : '))

검색할 키워드 입력 : 액션영화
sim : 0.5846263639334625, review : 스웨덴식 액션영화 강추
sim : 0.43431544406444184, review : 나 범죄영화나 스릴러영화나 액션영화 디게 좋아하는데
sim : 0.24862959769106963, review : 년대 만들었을 법한 액션영화 감독이 돈이 많은가 보네요어찌 이런 영화를 의도하에 만든건지 심심해서 만든건지비디오영화도 이 정도는 아닌데 감독대단

검색할 키워드 입력 : 시나리오
sim : 0.6444909451577203, review : 최고의영화죠 시나리오 굿
sim : 0.5014644310272237, review : 시나리오 쓰신 분 정말 존경스럽네요
sim : 0.39110728021204, review : 참신하고 독특한 영화 울나라는 이런 시나리오 못 쓰나요

검색할 키워드 입력 : 중국영화
sim : 0.27677966931755404, review : 요란법석만떨며 시끄럽기만 한 중국영화 스티븐시걸주연의 급 비디오용 영화보는듯 하다 개연성설득력리얼리티는 제로 시나리오는 저 멀리 년대 홍콩액션영화
sim : 0.2723791172588158, review : 갈수록 개판되가는 중국영화 유치하고 내용없음 폼잡다 끝남 말도안되는 무기에 유치한남무 아 그립다 동사서독같은 영화가 이건 류아류작이다
sim : 0.0, review : 주인공이 더 악당인영화재미있을 려고 영화봤는데더 스트레스받는 영화

저작자표시