DAY69. Tensorflow Selenium Crawling

LEE_BOMB 2021. 12. 28. 17:02

2021. 12. 28. 17:02

Selenium

Selenium 이란?
원격으로 특정 웹페이지의 버튼 클릭, 입력상자에서 자료 입력 등으로 어떤 결과가 나오는지 등의 다양한 웹 페이지와 사용자 간의 상호작용을 동적으 로 제어하는 기술 또는 프로그램
용도 : 동적 웹페이지 자료 수집(영화 리뷰), 구글 이미지 수집(절차)

동적 페이지 vs 정적 페이지
1) 정적 페이지
- 이미 준비되어 있는 웹문서를 사용자(client)에게 제공
- 언제 접속해도 동일한 리소스를 제공하는 웹사이트
- BeautifulSoup 라이브러리를 이용하여 웹문서 수집

2) 동적 페이지
- 사용자(client)의 요청을 받은 시점에서 웹문서를 사용자에게 제공
- 사용자의 요청에 따라서 서로 다른 리소스를 제공하는 웹사이트
- Selenium 라이브러리를 이용하여 웹문서 및 이미지 수집
ex) google 이미지, SNS(Instagram, Youtube, Facebook) 자료 수집

Selenium 설치
(base) conda activate tensorflow
(tensorflow) pip install selenium

Web Driver
Selenium 지시를 받아 웹브라우저를 이용하여 동적페이지 제어하는 프로그램

크롬 드라이버 다운로드(chromedriver.exe)
단계1: 사용자 크롬 브라우저 버전 확인
단계2: 크롬 드라이버 다운로드 https://chromedriver.chromium.org/downloads

엘리먼트(element)
웹문서를 작성하는 태그(tag)
형식) <시작태그 속성> 내용 </종료태그>
예) <a href=‘http://www.naver.com’ class=‘a_link’> 네이버 </a>

Selenium Crawling
엘리먼트 수집 Selenium 함수
find_element_by_class_name('class이름') # class 속성의 이름으로 찾기
find_element_by_id('id이름') # id 속성의 이름으로 찾기
find_element_by_name('name이름') # name 속성의 이름으로 찾기
find_element_by_tag_name('tag이름') # tag 이름으로 찾기
find_element_by_link_text('text') # a 태그의 텍스로 찾기
find_element_by_css_selector('css_selector') # 선택자로 찾기(. or #)
find_element_by_xpath('xpath') # tag 절대경로 or 상대경로 찾기

1) 버튼 클릭하기 예
browser.get("https://naver.com") # url 이동
elem = browser.find_element_by_class_name("link_login") # 버튼 element
elem.click() # 버튼을 누름
browser.back() # 페이지 뒤로 이동
browser.forward() # 페이지 앞으로 이동
browser.refresh() # 페이지 새로고침(F5)

2) 검색어 입력 및 결과 검색 예
1. 대상 url

driver.get("https://www.google.com/") # 구글 페이지 이동

2. name 속성으로 element 가져오기

elem = driver.find_element_by_name("q") # 1개 element 수집

3. 검색어 입력 -> 엔터

elem.send_keys("셀레리움 크롤링") elem.send_keys(Keys.ENTER) # 검색결과 페이지 이동

3) Selenium이용 셀럽 이미지 수집
1. Google 이미지 검색 페이지 접속

# 크롬 드라이버 생성 Driver = webdriver.Chrome() #google 이미지검색 url 접속 driver.get("https://www.google.co.kr/imghp?h1=ko&tab=wi&ogb1")

2. Google 검색어 입력상자 찾기 & 검색어 입력과 찾기 버튼 클릭

# 검색어 입력상자 : name속성 element 찾기 elem = driver.find_element_by_name("q") # 검색어 입력 및 엔터 elem.send_keys('하정우') # 검색어 입력 elem.send_keys(Keys.RETURN) # 엔터키누름

3. 작은 이미지 전체 element 수집

# class이름으로 element 찾기 images = driver.find_elements_by_class_name("rg_i.Q4LuWd")

4. 작은 이미지 클릭 -> 큰 이미지 save

# 작은 이미지 클릭 -> 큰 이미지 save for image in images : image.click() # 작은 이미지 클릭 -> 큰 이미지 나타남 # 큰 이미지 url 획득 : copy full Xpath 단축 메뉴 이용 imageUrl = driver.find_element_by_xpath("/html/body/div[2]/c-wiz/div[3]/div[2]/div[3]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div/a/img").get_attribute("src") # 현재 폴더위치에 image 저장 urlretrieve(imageUrl, 'image'+str(cnt)+".jpg")

button click

1. naver page 이동
2. login 버튼 클릭
3. 화면 전환

from selenium import webdriver #module import time #화면 일시 정지

1. driver 객체 생성

path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe') dir(driver)

'find_element', : 1개 element 수집
'find_elements', : n개 element 수집
'get' : 특정 url 이동
'forward' : 페이지 앞으로 이동
'back' : 페이지 뒤로 이동

2. 대상 url 이동

driver.get('https://www.naver.com/') #url 이동

3. 로그인 버튼 element 가져오기
copy element : <a href="https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com" class="link_login" data-clk="log_off.login">네이버로그인</a>

1) class name으로 가져오기
login_ele = driver.find_element_by_class_name("link_login")
login_ele.click() # 버튼 클릭
time.sleep(2) # 2초 일시 중지

2) xpath로 가져오기
copy xpath : 상대경로 - //*[@id="account"]/a
copy full xpath : 절대경로 - /html/body/div[2]/div[3]/div[3]/div/div[2]/a

상대경로 : 직전상위태그/현재태그 경로
절대경로 : 시작태그부터 현재 태그 경로

login_ele2 = driver.find_element_by_xpath('//*[@id="account"]/a') login_ele2.click() #버튼 클릭 time.sleep(2) #2초 일시 중지 driver.back() #현재페이지 -> 이전으로 time.sleep(2) #2초 일시 중지 driver.forward() #이전 -> 앞으로 driver.refresh() #페이지 새로고침(F5) time.sleep(2) #2초 일시 중지 driver.close() #현재 창 닫기

text input

입력상자 -> 검색어 입력 -> [검색 페이지 이동] -> element 수집

from selenium import webdriver #driver 생성 from selenium.webdriver.common.keys import Keys #엔터키 역할

def keyword_search(keyword) : # 1. driver 객체 생성 path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe') # 2. 대상 url 이동 driver.get('https://www.google.com/') # url 이동 # 3. 검색어 입력상자 : name 속성으로 가져오기 ''' <input class="gLFyf gsfi" maxlength="2048" name="q" type="text" aria-autocomplete="both" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" autofocus="" role="combobox" spellcheck="false" title="검색" value="" aria-label="검색" data-ved="0ahUKEwiJqbLLxuf0AhU4slYBHXMEBNQQ39UDCAY"> ''' input_ele = driver.find_element_by_name('q') # 1개 element # 4. 검색어 입력 -> 엔터 input_ele.send_keys(keyword) input_ele.send_keys(Keys.ENTER) # 엔터키 누름 -> 검색 페이지 이동 # 5. 검색 페이지 element 수집 : tag 이름으로 가져오기 a_elems = driver.find_elements_by_tag_name('a') # n개 element 수집 : list반환 # 6. element 속성(href) 수집 : url urls = [] # url 저장 for a in a_elems : url = a.get_attribute("href") # href 속성 값 추출 urls.append(url) # 7. element 내용 수집 conts = [] for a in a_elems : conts.append(a.text) driver.close() # 창 닫기 return urls, conts

keyword = input('검색어 입력 : ') urls, conts = keyword_search(keyword) print(urls) print(conts)

text input

입력상자 -> 검색어 입력 -> [검색 페이지 이동] -> element 수집

from selenium import webdriver #driver 생성 from selenium.webdriver.common.keys import Keys #엔터키 역할

def keyword_search(keyword) : #1. driver 객체 생성 path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe') #2. 대상 url 이동 driver.get('https://www.google.com/') #url 이동 #3. 검색어 입력상자 : name 속성으로 가져오기 ''' <input class="gLFyf gsfi" maxlength="2048" name="q" type="text" aria-autocomplete="both" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" autofocus="" role="combobox" spellcheck="false" title="검색" value="" aria-label="검색" data-ved="0ahUKEwiJqbLLxuf0AhU4slYBHXMEBNQQ39UDCAY"> ''' input_ele = driver.find_element_by_name('q') #1개 element #4. 검색어 입력 -> 엔터 input_ele.send_keys(keyword) input_ele.send_keys(Keys.ENTER) #엔터키 누름 -> 검색 페이지 이동 #5. 검색 페이지 element 수집 : tag 이름으로 가져오기 a_elems = driver.find_elements_by_tag_name('a') #n개 element 수집 : list반환 #6. element 속성(href) 수집 : url urls = [] #url 저장 for a in a_elems : url = a.get_attribute("href") #href 속성 값 추출 urls.append(url) #7. element 내용 수집 conts = [] for a in a_elems : conts.append(a.text) driver.close() #창 닫기 return urls, conts

keyword = input('검색어 입력 : ') urls, conts = keyword_search(keyword) print(urls) print(conts)

movie review crawling

naver 영화 review 텍스트 수집
find_element_by : 1개 element 수집
find_elements_by : n개 element 수집 - list 반환

from selenium import webdriver #module import time #화면 일시 정지

1. driver 객체 생성

path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe')

2. 대상 url 이동

driver.get('https://movie.naver.com/') #naver 영화 검색 url 이동

3. [평점.리뷰] 링크 클릭 : 절대경로 이용 1개 element 가져오기
<a href="/movie/point/af/list.naver" title="평점·리뷰" class="menu07">평점·리뷰</a>

a_ele = driver.find_element_by_xpath('/html/body/div/div[3]/div/div[1]/div/div/ul/li[4]/a') a_ele.click() #a tag 클릭 -> 페이지 이동 print(driver.current_url) #현재 페이지 url 출력

https://movie.naver.com/movie/point/af/list.naver -> base url
https://movie.naver.com/movie/point/af/list.naver?&page=1 -> query : base?&page={n}
https://movie.naver.com/movie/point/af/list.naver?&page=2
https://movie.naver.com/movie/point/af/list.naver?&page=3

4. 영화제목, 평점, 리뷰 수집 : 1page(10개)

title_txt = [] #영화제목 저장 star_txt = [] #평점 저장 cont_txt = [] #리뷰 저장 for n in range(1, 21) : #20page 수집 url = f"https://movie.naver.com/movie/point/af/list.naver?&page={n}" driver.get(url) #page 번호 이동 time.sleep(1) #1초 일시 정지 #1) 영화제목 저장 : copy xpath ''' //*[@id="old_content"]/table/tbody/tr[1]/td[2]/a[1] - 1번 //*[@id="old_content"]/table/tbody/tr[2]/td[2]/a[1] - 2번 //*[@id="old_content"]/table/tbody/tr[10]/td[2]/a[1] - 10번 //*[@id="old_content"]/table/tbody/tr/td[2]/a[1] - 영화제목 패턴 ''' titles = driver.find_elements_by_xpath('//*[@id="old_content"]/table/tbody/tr/td[2]/a[1]') for title in titles : title_txt.append(title.text) print(title_txt) #2) 평점 저장 ''' //*[@id="old_content"]/table/tbody/tr[1]/td[2]/div/em //*[@id="old_content"]/table/tbody/tr[2]/td[2]/div/em //*[@id="old_content"]/table/tbody/tr/td[2]/div/em - 평점 패턴 ''' stars = driver.find_elements_by_xpath('//*[@id="old_content"]/table/tbody/tr/td[2]/div/em') for star in stars : star_txt.append(star.text) print(star_txt) #3) 리뷰 저장 ''' //*[@id="old_content"]/table/tbody/tr[1]/td[2] //*[@id="old_content"]/table/tbody/tr[2]/td[2] //*[@id="old_content"]/table/tbody/tr[3]/td[2] //*[@id="old_content"]/table/tbody/tr/td[2] - 리뷰 패턴 ''' conts = driver.find_elements_by_xpath('//*[@id="old_content"]/table/tbody/tr/td[2]') for cont in conts : #print(cont.text) # 하위 element 모든 text 출력 ''' 스파이더맨: 노 웨이 홈 : 제목[0] 별점 - 총 10점 중 : 별점[1] 10 : 평점[2] 중국문화선전물, 게이BL물로 지쳐가던 마블팬에게 드디어 심폐소생술 성공 신고 : 리뷰[3] ''' txt_token = str(cont.text).split('\n') review = txt_token[3] cont_txt.append(review[:-3]) #'신고' 제외 print(cont_txt) print('제목 개수 :', len(title_txt)) #10 -> 200 print('평점 개수 :', len(star_txt)) #10 -> 200 print('리뷰 개수 :', len(cont_txt)) #10 -> 200 driver.close() #창 닫기

5. file save
1) DataFrame

import pandas as pd df = pd.DataFrame({'title':title_txt,'star':star_txt, 'review':cont_txt}, columns=['title','star','review'])

2) csv file save

df.to_csv('movie_review.csv', index=False) print('file saved...')

3) csv file read

movie_review = pd.read_csv('movie_review.csv') movie_review.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 title 200 non-null object
1 star 200 non-null int64
2 review 189 non-null object

movie_review.head() movie_review.tail()

celeb image crawling

셀럽 이미지 수집
Selenium + BeautifulSoup

(base) conda activate tensorflow
(tensorflow) pip install beautifulsoup4

from selenium import webdriver #동적 페이지 제어 from bs4 import BeautifulSoup #정적 페이지 처리 from urllib.request import urlretrieve #server image -> local file save import numpy as np #중복 image url 제거 import os #폴더 관리(경로, 생성, 이동)

def celeb_img_crawler(name) : #1. driver 객체 생성 path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe') #2. 이미지 검색 url 이동 driver.get('https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl') #3. 검색어 입력상자 : name속성 가져오기 search_box = driver.find_element_by_name("q") search_box.send_keys(name) # 검색어 입력 #4. [찾기] 버튼 클릭 : copy xpath : //*[@id="sbtc"]/button search_btn = driver.find_element_by_xpath('//*[@id="sbtc"]/button') search_btn.click() #버튼 클릭 driver.implicitly_wait(3) #3초 대기(자원 loading) #5. 이미지 포함하는 div 태그 수집 -> image 태그 수집 #1) 이미지 포함하는 div 태그 수집 image_url = [] for i in range(50) : #0 ~ 49 src = driver.page_source #현재 페이지 소스 수집 html = BeautifulSoup(src, 'html.parser') #html 파싱 div_img = html.select_one(f'div[data-ri="{i}"]') #'tag[속성="값"]' #2) image 태그 수집 img_tag = div_img.select_one('img[class="rg_i Q4LuWd"]') #img element try : #img tag -> src 속성 값 추출 -> list 저장 image_url.append(img_tag.attrs['src']) print(str(i+1) + '번째 image url 추출') except : print(str(i+1) + '번째 image url 없음') #6. 중복 image url 제거 print(len(image_url)) # 28 image_url = np.unique(image_url) print(len(image_url)) # 28 #7. image 저장 폴더(dir) 생성 & 이동 pwd = os.getcwd() #C:\ITWILL\5_Tensorflow\workspace\chap06_Selenium_Crawling\lecture/name os.mkdir(name) #현재 위치에 폴더 생성(셀럽이름) os.chdir(pwd +'/'+ name) #폴더 이동 #8. image_url -> file save for i in range(len(image_url)) : #0 ~ 27 try : file_name = "test"+ str(i+1)+".jpg" #test1.jpg ~ test50.jpg urlretrieve(image_url[i], file_name) #file save print(str(i+1) + '번째 image 저장') except : print('해당 url에 image 없음 :', image_url[i]) os.chdir(pwd) #처음 위치 이동(다음 셀럽 저장) driver.close() #창 닫기

함수 호출 test
ex) celeb_img_crawler("차인표")

여러명 셀럽 이미지 수집

nameList = ["심자윤", "송혜교", "강동원"] #48, 36, 32 for name in nameList : celeb_img_crawler(name) #3회 호출

celeb image crawling scrolling

셀럽 이미지 수집
Selenium + BeautifulSoup

(base) conda activate tensorflow
(tensorflow) pip install beautifulsoup4

from selenium import webdriver #동적 페이지 제어 from bs4 import BeautifulSoup #정적 페이지 처리 from urllib.request import urlretrieve #server image -> local file save import numpy as np #중복 image url 제거 import os #폴더 관리(경로, 생성, 이동)

def celeb_img_crawler(name) : #1. driver 객체 생성 path = r"C:\ITWILL\5_Tensorflow\workspace" driver = webdriver.Chrome(path + '/chromedriver.exe') #2. 이미지 검색 url 이동 driver.get('https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl') #3. 검색어 입력상자 : name속성 가져오기 search_box = driver.find_element_by_name("q") search_box.send_keys(name) # 검색어 입력 #4. [찾기] 버튼 클릭 : copy xpath : //*[@id="sbtc"]/button search_btn = driver.find_element_by_xpath('//*[@id="sbtc"]/button') search_btn.click() #버튼 클릭 driver.implicitly_wait(3) #3초 대기(자원 loading) # ------------ 스크롤바 내리기 ------------------------------------------------------ last_height = driver.execute_script("return document.body.scrollHeight") #현재 스크롤 높이 계산 while True: # 무한반복 # 브라우저 끝까지 스크롤바 내리기 driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 2초 대기 - 화면 스크롤 확인 # 화면 갱신된 화면의 스크롤 높이 계산 new_height = driver.execute_script("return document.body.scrollHeight") # 새로 계산한 스크롤 높이와 같으면 stop if new_height == last_height: try: # [결과 더보기] : 없는 경우 있음 - 예외처리 driver.find_element_by_class_name("mye4qd").click() # class이름으로 element찾기 #driver.find_element_by_css_selector(".mye4qd").click() # 선택자(.class이름) except: break last_height = new_height # 새로 계산한 스크롤 높이로 대체 #------------------------------------------------------------------------- #5. 이미지 포함하는 div 태그 수집 -> image 태그 수집 #1) 이미지 포함하는 div 태그 수집 image_url = [] for i in range(50) : #0 ~ 49 src = driver.page_source #현재 페이지 소스 수집 html = BeautifulSoup(src, 'html.parser') #html 파싱 div_img = html.select_one(f'div[data-ri="{i}"]') #'tag[속성="값"]' #2) image 태그 수집 img_tag = div_img.select_one('img[class="rg_i Q4LuWd"]') #img element try : #img tag -> src 속성 값 추출 -> list 저장 image_url.append(img_tag.attrs['src']) print(str(i+1) + '번째 image url 추출') except : print(str(i+1) + '번째 image url 없음') #6. 중복 image url 제거 print(len(image_url)) # 28 image_url = np.unique(image_url) print(len(image_url)) # 28 #7. image 저장 폴더(dir) 생성 & 이동 pwd = os.getcwd() #C:\ITWILL\5_Tensorflow\workspace\chap06_Selenium_Crawling\lecture/name os.mkdir(name) #현재 위치에 폴더 생성(셀럽이름) os.chdir(pwd +'/'+ name) #폴더 이동 #8. image_url -> file save for i in range(len(image_url)) : #0 ~ 27 try : file_name = "test"+ str(i+1)+".jpg" #test1.jpg ~ test50.jpg urlretrieve(image_url[i], file_name) #file save print(str(i+1) + '번째 image 저장') except : print('해당 url에 image 없음 :', image_url[i]) os.chdir(pwd) #처음 위치 이동(다음 셀럽 저장) driver.close() #창 닫기

함수 호출 test
ex) celeb_img_crawler("차인표")

여러명 셀럽 이미지 수집

nameList = ["심자윤", "송혜교", "강동원"] #48, 48, 48 for name in nameList : celeb_img_crawler(name) #3회 호출

'데이터분석가 과정 > Tensorflow' 카테고리의 다른 글

DAY71. Tensorflow Face detection (2) (0)	2021.12.30
DAY70. Tensorflow Face detection (1)face landmark (0)	2021.12.29
DAY68. Tensorflow CNN model (2)ImageGenerator (0)	2021.12.27
DAY67. Tensorflow CNN model (0)	2021.12.24
DAY66. Tensorflow Keras model (2)Overfitting solution (0)	2021.12.23

💣

DAY69. Tensorflow Selenium Crawling

'데이터분석가 과정 > Tensorflow' 카테고리의 다른 글

+ Recent posts

티스토리툴바