77. Python TextMining 연습문제(1)

개인공부/Python

77. Python TextMining 연습문제(1)

LEE_BOMB 2021. 12. 11. 22:48

문1) member.html 웹 문서를 대상으로 다음 조건에 맞게 내용을 추출하시오.

<조건> <tr> 태그 하위 태그인 <td> 태그의 모든 내용 출력
<출력 결과>
아이디
hong123
비밀번호
1234
이름
홍길동

from bs4 import BeautifulSoup

1. 파일 읽기

file = open("C:/ITWILL/4_Python-2/workspace/chap10_TextMining/data/member.html", mode='r', encoding='utf-8')
source = file.read()
file.close()

2. html 파싱

html = BeautifulSoup(source, 'html.parser')

3. 태그 찾기

tds = html.find_all('td') #td 태그 전체 찾기 
print(tds) #list 반환

[<td> 아이디 </td>, <td> hong123 </td>, <td> 비밀번호 </td>, <td> 1234 </td>, <td> 이름 </td>, <td> 홍길동 </td>]

4. 태그 내용 출력

contents = [td.text  for td in tds] #td 태그 내용 추출 
print(contents)

print('<출력결과>')
for c in contents :
    print(c)

문2) urls의 url을 대상으로 다음 조건에 맞게 웹 문서의 자료를 수집하시오.

조건1> http://으로 시작하는 url만을 대상으로 한다.
조건2> url에 해당하는 웹 문서를 대상으로 <a> 태그(tag) 내용을 출력한다.

from urllib.request import urlopen #함수 : 원격 서버 url 요청 
from bs4 import BeautifulSoup #클래스 : html 파싱
import re #정규표현식

urls = ['http://www.daum.net', 'www.daum.net', 'http://www.naver.com']

단계1 : url 정제

new_urls = []
for url in urls :
    tmp = re.findall('^http://', url)
    if tmp :
        new_urls.append(url)

단계2 : url에서 a 태그 내용 수집 & 출력

for url in new_urls :   
    #1. url 요청
    print('url :', url)
    req = urlopen(url)
    data = req.read()
    
    #2. html 파싱 
    src = data.decode('utf-8')
    html = BeautifulSoup(src, 'html.parser')
    
    #3. a 태그 찾기 & 내용 
    a_all = html.find_all('a') #앵커 태그 전체 찾기 
    print('a 태그 전체 개수 :', len(a_all)) #a 태그 전체 개수 : 414
    
    for a in a_all : 
        print(a.text) #tag 내용 출력

문3) 아래 url을 이용하여 어린이날(20210505)에 제공된 뉴스 기사를 1~5페이지 크롤링하는 크롤러 함수를 정의하고 크롤링 결과를 확인하시오.
base_url = "https://news.daum.net/newsbox?regDate="

<조건1> 크롤러 함수의 파라미터(page번호, 날짜)
<조건2> 크롤링 대상  : <a> 태그의 'class=link_txt' 속성을 갖는 내용
<조건3> 크롤링 결과 확인  : news 개수와  news 출력

import urllib.request as req  # url 가져오기 
from bs4 import BeautifulSoup

클로러 함수(페이지수, 검색날짜)

def crawler_func(pages, date):
    base_url = "https://news.daum.net/newsbox?regDate="
    crawling_news = [] #5 page news 저장

    url = base_url + date  
    #url = https://news.daum.net/newsbox?regDate=20210505
    
    #page 단위 news 수집 
    for page in range(1, pages+1) :  #1~5 page
        p = '&page=' + str(page)
        url += p #url = url + p 
                
        #url = https://news.daum.net/newsbox?regDate=20210505&page=1
        
        #1. url 요청 
        res = req.urlopen(url)    
        src = res.read() #source 
        data = src.decode('utf-8') #디코딩 적용 
        
        #2.html 파싱  
        html = BeautifulSoup(data, 'html.parser')
        
        #3. tag 요소 추출     
        #1) tag element 수집 
        a_tag = html.select('a[class="link_txt"]')
        
        #2) 자료 수집 
        page_news = [] #1 page news 저장     
        for a in a_tag :
            cont = str(a.string) #내용 가져오기 -> 문자열         
            page_news.append(cont.strip())
        
        crawling_news.extend(page_news[:40]) #5 page news 저장
            
    return crawling_news

클로러 함수 호출

crawling_news = crawler_func(5, '20210505') #(페이지수, 검색날짜)

print('크롤링 news 개수 =', len(crawling_news)) #200=5*40
print('크롤링 news') 
print(crawling_news)