DAY57. Python TextMining (2)WebCrawling (선택자, 뉴스 크롤링)

LEE_BOMB 2021. 12. 10. 16:16

selector

선택자(selector) : 웹문서 디자인용

종류 : id(#), calss
- id : 중복 불가 -> 1개의 tag선택 (기사 헤드라인 추출용)
- class : 중복 가능 -> n개 tag선택 (여러 개 문단으로 구성 된 내용 추출용)

html.select_one(#'id명')
html.select('.class명')

from bs4 import BeautifulSoup #html 파싱

1. html source 가져오기

path = r'C:\ITWILL\4_Python-2\workspace\chap10_TextMining\data\html03.html'
file = open(path, mode = 'r', encoding = 'UTF-8') #r = 읽기모드, encoding = html파일에서 확인
src = file.read()
file.close()

2. html 파싱

html = BeautifulSoup(src, 'html.parser')
print(html)

3. 선택자 이용한 태그 내용 가져오기

1) id선택자

table = html.select_one('#tab') #id='tab'
print(table)

2) 선택자와 계층구조

ths = html.select('#tab > tr > th') #<table> > <tr> > <th> -> 행 안의 4개의 태그 한꺼번에 꺼내기
print(ths) #[<th id="id"> 학번 </th>, <th id="name"> 이름 </th>, <th id="major"> 학과 </th>, <th id="email"> 이메일 </th>]

for th in ths :
    print(th.text)

학번
이름
학과
이메일

3) class 선택자 : '.class명'

trs = html.select('.odd') #calss = "odd"
print(trs) #list반환

4) 태그[속성 = '값']

trs2 = html.select("tr[class='odd']") #odd속성을 가진 tr만 선택하겠다 (5행 중 2행만 선택)
print(trs2) #list반환. 3, 4번의 과정은 같은 결과를 반환한다. 4번의 방법을 더 많이 사용함.

[<tr class="odd"> 
<td> 201602 </td>
<td> 이순신 </td>
<td> 해양학과 </td>
<td> lee@naver.com </td>
</tr>, <tr class="odd"> 
<td> 201604 </td>
<td> 유관순 </td>
<td> 유아교육 </td>
<td> you@naver.com </td>
</tr>]

홀수 행 내용 출력

for tr in trs2 :    
    tds = tr.find_all('td') #list 
    for td in tds :
        print(td.text) #내용 출력

newsCrawling

현재 시각 news Crawling
url : http://media.daum.net

import urllib.request as req #url 요청
from bs4 import BeautifulSoup #html 파싱

url = "http://media.daum.net"

1. url 요청

res = req.urlopen(url)
src = res.read() # source 읽기
print(src)

2. 디코딩 & html 파싱

data = src.decode('utf-8')
html = BeautifulSoup(data, 'html.parser')
print(html)

3. 태그[속성=값] 요소 추출

links = html.select('a[class="link_txt"]') #<a href="https://v.daum.net/v/20211126102955289" class="link_txt" data-tiara-layer="article" data-tiara-id="20211126102955289" data-tiara-type="harmony" data-tiara-ordnum="4" data-tiara-custom="contentUniqueKey=hamny-20211126102955289">'표적 수사' 반발에도..공수처, 예정대로 대검 압수수색</a>
len(links) # 62
print(links)

a 태그 내용 추출

contents = [] #내용 저장 
cnt = 0
for link in links :     
    tmp = str(link.text) #문자열 변환 
    contents.append(tmp.strip()) #문장 끝 불용어(공백,제어문자) 제거 
    print(cnt, '->', tmp.strip())
    cnt += 1 #카운터

4. url 수집 : 상세 news 수집 목적

urls = [] #url 저장 

for link in links[:46] : 
    try : 
        urls.append(link.attrs['href'])#a 태그의 url 추출 
    except Exception as e :
        print('예외발생 : ',e)

print(urls)
len(urls) #46

5. news 관련 url 선별
https://news.v.daum.net

import re

url_pat = re.compile('^https://news.v.daum.net') #패턴 객체 생성

패턴과 일치한 url 선별

news_urls = [url for url in urls if url_pat.match(url)]

len(news_urls) #17
print(news_urls)

6. Crawler 함수 : 문서 수집 역할
def crawler_fn(url) :
1. url 요청

def crawler_fn(url) : 
    #1. url 요청 
    res = req.urlopen(url)
    src = res.read() #source 읽기
    
    #2. 디코딩 & html 파싱 
    data = src.decode('utf-8')
    html = BeautifulSoup(data, 'html.parser')
    
    #3. 제목과 내용 수집 
    #1) 제목 수집 : 1개 tag 
    title = str(html.select_one('h3[class="tit_view"]').text).strip()
    
    #2) 내용 수집 : 여러개 tag 
    '''
    div.news_view > div.article_view > section > p    
    '''
    article = html.select('div[class="news_view"] > div[class="article_view"] > section > p')
    
    #4. 여러개 문단(p) -> 한 개의 변수로 묶음 
    conts = ""
    for p in article :
        text = str(p.text).strip()
        conts += text #텍스트 누적 
        
    return title, conts

Crawler 함수 호출

titles = [] #제목 저장 
news = [] #내용 저장 

for url in news_urls :  
    title, conts = crawler_fn(url) #함수 호출 
    titles.append(title) #제목 저장 
    news.append(conts) #내용 저장 

print(titles)
print(news)
len(titles) #17
len(news) #17
news[0]
news[-1]

7. csv file save

import pandas as pd 

daum_news = pd.DataFrame({'titles':titles, 'news':news},
             columns=['titles','news'])

daum_news.info()

daum_news.head()

path = r"C:\ITWILL\4_Python-2\workspace\chap10_TextMining\data"

행번호 저장 안함 : index=None

daum_news.to_csv(path + '/daum_news.csv', index=None)

news = pd.read_csv(path + '/daum_news.csv')
news

news Query Crawling

1. http://media.daum.net -> 바로가기 : 배열이력
특정 날짜와 페이지 선택
2. https://news.daum.net/newsbox?regDate=20211119&tab_cate=NE&page=1
f'https://news.daum.net/newsbox?regDate={date}&tab_cate=NE&page={page}'

년도별 뉴스 수집 : 10년간 뉴스 수집
ex) 20111030 ~ 20211030

import urllib.request as req #url 요청 
from bs4 import BeautifulSoup #html 파싱
import pandas as pd #date 생성

수집기간 : 20201101 ~ 20210330 : 5개월, page : 5씩 단위

1. 수집기간 date 생성

dates = pd.date_range(start="2020-11-01", end = "2021-03-30") #5개월 
print(dates)

import re #날짜 전처리 

Dates = []
for date in dates :
    #print(date) # 2020-11-01 00:00:00 -> 20201101
    Dates.append(re.sub('-', '', str(date))[:8])
    
print(Dates)

2. Crawler 함수(날짜, 페이지수)

def crawler_fn(date, pages=5) :
    day_news = [] #1day news 저장 
    
    for page in range(1, pages+1) : #1 ~ 5 페이지 
        #1. url 구성 
        url = f'https://news.daum.net/newsbox?regDate={date}&tab_cate=NE&page={page}' 

        #2. url 요청 
        res = req.urlopen(url)
        src = res.read()
        
        #3. 디코드 & html 파싱 
        data = src.decode('utf-8')
        html = BeautifulSoup(data, 'html.parser')
        
        #<a href="//v.daum.net/v/20201103235720871" class="link_txt">[심층인터뷰] 역대 '최고 투표율'..김동석 미주한인유권자연대 대표</a>
        #4) a 태그 내용 수집 
        links = html.select('a[class="link_txt"]') #list 반환 
        
        page_news = [] #1page news 
        
        for a in links :
            news = str(a.text).strip() 
            page_news.append(news)
            
        print(page_news)
        
        #1일 news 추가 : 40색인 이후 관련 뉴스 제외      
        day_news.extend(page_news[:40]) #[1page, 2page, 3page, 4page, 5page]
        
    return day_news #1일 news 내용

1일 news 수집 테스트

day_news = crawler_fn('20201101')
day_news
len(day_news) #670

3. Crawler 함수 호출

crawling_data = []
for date in Dates :
    day_news = crawler_fn(date) #1일 news - list
    crawling_data.append(day_news) #150일 news - list

list 내포

crawling_data = [crawler_fn(date) for date in Dates]

crawling_data : [[day1],[day2],....[day150]]

print(crawling_data)

crawling_data[0] #day1 news 
crawling_data[-1] #day150 news 

len(crawling_data) #150

4. file save

import pickle #object -> binary file 

path = r'C:\ITWILL\4_Python-2\workspace\chap10_TextMining\data'

file = open(path + '/news_data.pkl', mode='wb')
pickle.dump(crawling_data, file)
file.close()

file load

file = open(path + '/news_data.pkl', mode='rb')
news_data = pickle.load(file)
print(news_data)

naver newsCrawling

import urllib.request as req #url 요청 
from bs4 import BeautifulSoup #html 파싱 
import re #정규표현식 : url 정제 
import pandas as pd #DataFrame(title + contents)

1. base url : naver 뉴스 검색
naver.com -> [뉴스]클릭 -> 검색어 입력(대통령선거) -> [옵션] -> 기간:6개월
-> 1page 클릭

https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0&sort=0&photo=0&field=0&pd=6&ds=2021.06.02&de=2021.11.29&cluster_rank=18&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:6m,a:all&start=1

-> 2page 클릭
https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0&sort=0&photo=0&field=0&pd=6&ds=2021.06.02&de=2021.11.29&cluster_rank=53&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:6m,a:all&start=11

-> 3page 클릭
https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0&sort=0&photo=0&field=0&pd=6&ds=2021.06.02&de=2021.11.29&cluster_rank=106&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:6m,a:all&start=21

query=검색어
sort=정렬방식(0,1,2)
ds=검색 시작일
de=검색 종료일
start=수집할 페이지번호(1page에 news링크 10개 포함)
ex) 1page -> start=1, 2page -> start=11, 3page -> start=21

page번호 vs start변수

pages = 10 #1~10페이지 
max_pages = (pages-1) * 10 + 1 #21

for start in range(1, max_pages+1, 10) : #1~21, step=10
    print(start)

1 -> 1
2 -> 11
3 -> 21
:
10 -> 91

2. url 추출 : 네이버 뉴스 링크 수집

def extract_url(pages) : #페이지 번호 
    max_pages = (pages-1) * 10 + 1
    
    news_urls = [] #네이버 뉴스 링크 저장 
    for start in range(1, max_pages+1, 10) :
        # 1) base url 구성 
        url = f"https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EB%8C%80%ED%86%B5%EB%A0%B9%EC%84%A0%EA%B1%B0&sort=0&photo=0&field=0&pd=6&ds=2021.06.02&de=2021.11.29&cluster_rank=431&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:6m,a:all&start={start}"
        print(url)
        
        #2) url 요청 -> html source 
        res = req.urlopen(url)
        src = res.read()
        
        #3) 디코딩 & html 파싱 
        data = src.decode('utf-8')
        html = BeautifulSoup(data, 'html.parser')
        
        #4) url 수집 
        '''
        네이버 뉴스 url 수집
        <a href='url'> 내용 </a>
        '''
        links = html.select("div.news_area > div.news_info > div.info_group > a.info")
        #href 속성 추출 : url 수집 
        urls = []
        for link in links :
            urls.append(link.attrs['href'])
            
        print('urls 수 : ', len(urls)) #urls 수 :  15
        #print(urls) 
        
        #5) url 선정 : https://news.naver.com
        url_patt = re.compile('^https://news.naver.com')
        page_url = [url for url in urls if url_patt.match(url)]
        
        news_urls.extend(page_url) #단일list  
        
    return news_urls

함수 호출

news_urls = extract_url(10) #1~10 페이지 
len(news_urls) # 60
news_urls

3. Crawler 함수

def crawler_fn(news_urls) : 
    titles = [] # 제목 
    conts = [] # 뉴스 내용 
    
    for url in news_urls : 
        #1) url 요청 
        res = req.urlopen(url)
        src = res.read()
        
        #2) 디코딩 & html 파싱 
        data = src.decode('euc-kr')
        html = BeautifulSoup(data, 'html.parser')
        
        # 3) 제목과 내용 수집 
        title = html.select_one('div.article_info > h3#articleTitle')
        titles.append(str(title.text).strip())
        
        article = html.select_one('div#articleBody > div#articleBodyContents')
        conts.append(str(article.text).strip())
        #print('title :', titles)
        #print('conts :', conts)
        
    return titles, conts

news 제목과 내용 수집

titles, conts = crawler_fn(news_urls)

len(titles) #60 
len(conts) #60

4. csv file save

naver_news = pd.DataFrame({'title' : titles, 'contents': conts},
             columns = ['title', 'contents'])

naver_news.info()

path = r'C:\ITWILL\4_Python-2\workspace\chap10_TextMining\data'
naver_news.to_csv(path + '/naver_news.csv', index=None)

저작자표시 (새창열림)