102. 파이널 프로젝트 (8)시각화, 변수 추가 수집

LEE_BOMB 2022. 1. 11. 23:10

2022. 1. 11. 23:10

그래프 시각화

1. 제작비별

0. 모듈 임포트

import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

1. 데이터 가져오기

movie=pd.read_csv(r'경로\파일명.csv')
movie

2. 결측치 처리

movie.isna().sum() #결측치 확인
movie = movie.dropna(axis=0) #결측치 행 삭제
movie

movie["추정 제작비"]
movie["추정 제작비"].describe(include='all')

성공
count     49.000000
mean     124.285714
std       71.219730
min       35.000000
25%       75.000000
50%      105.000000
75%      150.000000
max      430.000000
Name: 추정 제작비, dtype: float64

망함
count     47.000000
mean      71.234043
std       39.120890
min        5.000000
25%       46.000000
50%       60.000000
75%       84.000000
max      230.000000
Name: 추정 제작비, dtype: float64

cost_100 = movie.loc[movie["추정 제작비"] <= 100, ["추정 제작비"]] # 24 / 41
cost_100_200 = movie.loc[(movie["추정 제작비"] > 100) & (movie["추정 제작비"] <= 200), ["추정 제작비"]] # 19 / 5
cost_200 = movie.loc[(movie["추정 제작비"] > 200), ["추정 제작비"]] # 6 / 1

3. 데이터프레임에 tag칼럼을 추가해 제작비 기준으로 값을 입력

movie["tag"] = 0 #0으로 초기화
movie["tag"]

def find_group(value):
    if value <= 100:
        return "100 이하"
    elif value <= 200:
        return "100 초과 200 이하"
    else:
        return "200 초과"
        
movie["tag"] = [find_group(e) for e in movie["추정 제작비"]]
movie["tag"]

4.막대 그래프 시각화

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
        rc={"axes.unicode_minus":False}, style="white") #darkgrid, whitegrid, dark, white, ticks
ax = sns.countplot(x="tag", data=movie, 
                   order=movie["tag"].value_counts().index, #내림차순
                   palette="Set3")

plt.xticks(rotation=270)

plt.ylabel("영화 수")
plt.xlabel("제작비 (단위:억)")

sns.despine() # top, right 테두리 제거

sns.despine(left=True, bottom=True) #모든 테두리 제거

값 표시

for p in ax.patches:
    height = p.get_height()
    ax.text(p.get_x()+p.get_width()/2., height, height, ha='center', size=9)

plt.show()

print(movie["tag"].value_counts())

5. 산점도 시각화

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
        rc={"axes.unicode_minus":False}, style="whitegrid") #darkgrid, whitegrid, dark, white, ticks
sns.scatterplot(y="추정 제작비", x="영화 제목", data=movie, hue="천만관객돌파여부",
                palette="Set2")
sns.despine() #top, right 테두리 제거
plt.ylim([0, 440])
plt.ylabel("제작비 (단위:억)")
plt.xticks(rotation=270)
plt.show()

2. 배급사별

1. 데이터 전처리

distributor = movie['배급사'] #배급사의 경우 'CJ ENM'은 띄어쓰기 기준으로 나누면 안되므로
col_list = []

for d in distributor :
    if d ==  "CJ ENM" :
        col_list.append(d)
    else :
        d_split = d.split() #공백 분리 
        for token in d_split :
            col_list.append(token)
            
col_list

리스트 -> 데이터프레임

col_name = ["배급사"]
col_df = pd.DataFrame(col_list, columns=col_name)

######### 몇 개 이상인지 수정할 때 ############
##### 다 볼 땐 이 범위 전체 주석 처리 #########
chart_data = col_df["배급사"].value_counts()
index = chart_data.index # 장르 추출 
values = chart_data.values # 빈도수 추출 
    
choice_genre = [] # n 초과 장르 선택 
for idx, val in zip(index, values):
    if val > 1: # 이 숫자를 수정
        choice_genre.append(idx)
    
col_df = col_df[col_df.isin(choice_genre)]
#############################################

2. 시각화

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
        rc={"axes.unicode_minus":False}, style="white") #darkgrid, whitegrid, dark, white, ticks
ax = sns.countplot(x="배급사", data=col_df, 
                   order=col_df["배급사"].value_counts().index, #내림차순
                   palette="Set3")
plt.xticks(rotation=270)
plt.ylabel("영화 수")
#sns.despine() # top, right 테두리 제거
sns.despine(left=True, bottom=True) #모든 테두리 제거

값 표시

for p in ax.patches:
    height = p.get_height()
    ax.text(p.get_x()+p.get_width()/2., height, height, ha='center', size=9)

plt.show()

print(col_df["배급사"].value_counts())

3. 장르별

try : 
    if platform.system() == 'Windows':
    #윈도우인 경우
        path = "C:\Windows\Fonts\malgun.ttf"
        font_name = font_manager.FontProperties(fname=path).get_name() 
        rc('font', family=font_name)
    #else:    
    #Mac 인 경우
        #rc('font', family='AppleGothic')
except :
    pass
matplotlib.rcParams['axes.unicode_minus'] = False


plt.figure(figsize=(20,5))
sns.set(style='white') #darkgrid, whitegrid, dark, white, ticks
sns.countplot(x='장르', data=movie, palette="Set2")
#sns.despine() # top, right 테두리 제거
sns.despine(left=True, bottom=True) #모든 테두리 제거
plt.show()

변수 추가 수집

0. 모듈 임포트

import pandas as pd

1. 경로 지정

path = r'경로명'

data = pd.read_csv(path + '/배우감독변수.csv')
data.info()

2. 서브셋 만들기

df = data[['영화 제목', '누적관람객 수', '감독', '주연배우']]
df

title = df['영화 제목']
size = df['누적관람객 수']

4. 공백 기준으로 문자열 자르기

col_list1 = df['감독'].str.split()
col_list1

col_list2 = df['주연배우'].str.split()
col_list2

5. dataFrame 묶기

new_df = pd.DataFrame({'title':title, 'size' : size, 
                       'director': col_list1,
                       'actor' : col_list2}, 
                      columns=['title', 'size', 'director', 'actor'])

new_df.head()

6. 감독과 배우 기준으로 새로운 데이터프레임 생성

new_title = [] # 감독 기준 영화제목 
new_title2 = [] # 배우 기준 영화제목 
new_size = [] # 감독 기준 누적관객수 
new_size2 = [] # 배우 기준 누적관객수 
new_director = [] # 감독  
new_actor = [] # 배우

7-1. 감독 기준

for i, directors in enumerate(new_df['director']) :
    for d in directors : 
        new_title.append(title[i]) # 영화제목 
        new_size.append(size[i]) # 감독 기준 누적관객수   
        new_director.append(d) # 감독 
        

director_df = pd.DataFrame({'title':new_title, 'size' : new_size, 
                       'director': new_director},
                           columns = ['title', 'size', 'director'])

director_df.info() # RangeIndex: 101 entries, 0 to 100
print(director_df)

7-2. 주연배우 기준

for i, actors in enumerate(new_df['actor']) :
    for a in actors : 
        new_title2.append(title[i]) # 영화제목
        new_size2.append(size[i]) # 배우 기준 누적관객수   
        new_actor.append(a) # 배우 

actor_df = pd.DataFrame({'title':new_title2, 'size' : new_size2, 
                       'actor': new_actor},
                        columns = ['title', 'size', 'actor'])

actor_df.info() # RangeIndex: 393 entries, 0 to 392
print(actor_df)

8. 감독 기준 상위 누적관객수 평균 상위 50위

director_name = director_df['director'].unique()

names = []
size_avg = []
for i, name in enumerate(director_name) :
    names.append(name)
    df = director_df[director_df['director'] == name]
    size_avg.append(df['size'].mean())


df2 = pd.DataFrame({'director': names, 'size_avg' : size_avg})
df2

dir(df2)

sorted_value = df2['size_avg'].sort_values(ascending=False)
idx = sorted_value.index

result2 = df2.iloc[idx]
result2 


result2[:50]

9. 주연배우 기준 상위 누적관객수 평균 상위 50위

actor_name = actor_df['actor'].unique()

names = []
size_avg = []
for i, name in enumerate(actor_name) :
    names.append(name)
    df = actor_df[actor_df['actor'] == name]
    size_avg.append(df['size'].mean())

names    
size_avg    

df = pd.DataFrame({'actor': names, 'size_avg' : size_avg})
df

dir(df)

help(df['size_avg'].sort_values)
sorted_value = df['size_avg'].sort_values(ascending=False)

idx = sorted_value.index

result = df.iloc[idx]
result 

result[:60]

10. 엑셀파일 저장

result.to_csv(r'경로명\파일명.csv', sep=',', na_rep='NaN', encoding='utf-8-sig', mode='a', header=False, index=True)

'개인공부 > Python' 카테고리의 다른 글

104. 파이널 프로젝트 (10)SVM, Naive Bayes모델 만들기 (0)	2022.01.13
103. 파이널 프로젝트 (9)상관분석 (0)	2022.01.12
101. 파이널 프로젝트 (7)네이버 영화 리뷰 워드클라우드 (0)	2022.01.10
101. 파이널 프로젝트 (6)네이버 영화 리뷰 크롤러 만들기 (0)	2022.01.09
100. 파이널 프로젝트 (5)html 기본 (0)	2022.01.08

💣

102. 파이널 프로젝트 (8)시각화, 변수 추가 수집

'개인공부 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바