98. 파이널 프로젝트 (3)네이버 뉴스 크롤러 만들기

개인공부/Python

98. 파이널 프로젝트 (3)네이버 뉴스 크롤러 만들기

LEE_BOMB 2022. 1. 6. 21:32

naver 뉴스 검색 키워드 특성
naver에서는 1개 키워드 당 최대 4,000개 까지 제공하므로 크롤링할 최대 페이지를 1~400 페이지까지 지정 가능

0. 패키지 임포트

import urllib.request as req
from bs4 import BeautifulSoup
import re
import pandas as pd

1. url 추출 : news 링크 수집 함수 생성

def extract_url(pages): #페이지 번호      
    maxPages =(pages-1)*10+1 #pages=10 -> start=91
    news_urls = [] #각 page url 저장 
    
    page=1 # 페이지 수 카운트 
    for start in range(1, maxPages+1, 10) : #1, 11, 21, ... 91
        #1) url 구성
        url = f"링크 주소={start}"
        print('page =', page)
        page += 1
        
        #2) url 요청 -> html source          
        res = req.urlopen(url)
        data = res.read()
               
        #3) html 파싱
        src = data.decode('utf-8') 
        html = BeautifulSoup(src, 'html.parser')     
        links = html.select('div.news_area > div.news_info > div.info_group > a.info')
         
        #4) url 수집  
        urls = [link.attrs['href'] for link in links] 
        
        #5) url 선정 : 네이버 뉴스 url만 추출 
        url_pattern = re.compile('^https://news.naver.com')

        page_urls = [url  for url in urls if url_pattern.match(url)]                
        news_urls.extend(page_urls) # page당 url save 
        print('추출 url 개수 =', len(page_urls)) #해당 페이지에서 크롤링한 url 개수 
        
    return news_urls

2. url 추출 & 확인

news_urls = extract_url(400) #100페이지만 크롤링(최대 400 페이지까지 가능) 
print(news_urls) #네이버 뉴스 url 확인 
len(news_urls) #전체 url 개수

3. Crawler 함수(페이지, 검색날짜)

def crawler_func(news_urls): #crawling url 
    titles = [] #제목 
    conts = [] #뉴스 내용 
    for url in news_urls : #1page당 url
        #1) url 요청 -> html source   
        res = req.urlopen(url)
        data = res.read()
        #print(data) # <meta charset="euc-kr">
        
        #2) html 파싱
        try : # decode 및 태그 없는 경우
            src = data.decode('euc-kr') 
            html = BeautifulSoup(src, 'html.parser')  
            #select_one : 1개 tag 대상 
            title = html.select_one('div.article_info > h3#articleTitle') 
            titles.append(str(title.text).strip())
                            
            article = html.select_one('div[id="articleBody"] > div[id="articleBodyContents"]') 
            conts.append(str(article.text).strip())#tag 텍스트 수집

           #print(titles)
           #print(conts)
        except Exception as e:
            print('예외발생 : ', e)
            print('url :', url)
    return titles, conts

4. 제목과 내용 수집

titles, conts = crawler_func(news_urls) 
len(titles) #제목 수 
len(conts) #내용 수 
print(conts[0]) #news 내용중에서 첫번째에 나타난 아래 문장은 제외 제거함

// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}줄바꿈3개

#첫번째 나타난 문장 제외
remove_str ="// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback\(\) \{\}\n\n\n"
contents = [re.sub(remove_str,"", cont) for cont in conts]
contents[0] #문장 제외됨

5. csv file save

naver_news = pd.DataFrame({'titles':titles, 'contents':contents}, 
                       columns = ['titles', 'contents'])
naver_news.info()
print(naver_news.head())

path = r'D:\ITWILL'
naver_news.to_csv(path+'/영화명_news.csv', index=None, encoding = "utf-8-sig")

저작자표시