DAY56. Python TextMining (1)WebCrawling (url, tag, html)

데이터분석가 과정/Python

DAY56. Python TextMining (1)WebCrawling (url, tag, html)

LEE_BOMB 2021. 12. 9. 19:57

Text Mining 4단계
1. 문서 수집 (Text Crawling)
2. 형태소 분석 (KONLPY)
3. 시각화 (Word Cloud)
4. 희소행렬 (Sparse Matrix)

1. 문서 수집
1) HTML 웹문서
2) URL 기반 자료수집
3) Query 기반 수집

HTML(Hypertext Markup Language)웹문서
월드 와이드 웹(www)을 통해 볼 수 있는 문서를 만들 때 사용하는 웹 언어 종류
다양한 태그(tag)를 이용하여 웹문서를 작성

① 태그 형식 : <시작태그> 내용 </종료태그>
태그 검사 기능 : 웹 브라우저에서 웹문서의 태그 확인 및 검색 기능 (단축키 : F12)

② 태그 속성(attribute) : 해당 태그에 기능을 지정하는 역할
형식) <태그 속성> 내용 </종료태그>

③ 선택자(selector) : 특정 태그를 대상으로 디자인을 적용 위해 사용되는 속성
형식) <태그 id=‘id이름’> 내용 </종료태그>
<태그 class=‘클래스이름’> 내용 </종료태그>
id속성 : 중복 불가, class 속성 : 중복 가능

url request

<작업절차>
1. url 요청 -> 응답(source)
2. source -> html 파싱(html 문서 변환)
3. 태그(tag) 검색 -> 내용 수집

from urllib.request import urlopen #url 요청 from bs4 import BeautifulSoup #html 파싱

url 요청

url = "https://www.naver.com/index.html"

1. 원격 서버 url 요청

req = urlopen(url) # 요청 -> 응답(source) source = req.read() # source 읽기 print(source)

2. 디코딩 & html 파싱

data = source.decode("utf-8") # charset="utf-8" html = BeautifulSoup(data, 'html.parser') print(html)

3. 태그(tag) 검색 -> 내용 수집

a = html.find('a') # find('tag') print(a) # 최초 발견된 <a> tag 수집

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>
<태그 속성>내용 </태그> -> tag element

print('a tag 내용 : ',a.text) #a tag 내용 : 뉴스스탠드 바로가기 aa = html.find_all('a') # 모든 태그 수집 - list print(aa) len(aa) # 406 aa[-1] #<a data-clk="nhn" href="https://www.navercorp.com" target="_blank">ⓒ NAVER Corp.</a> aa[-1].text # 'ⓒ NAVER Corp.'

tag find

1. html.find('tag') : 1개 태그 수집
2. html.find_all('tag') : 모든 태그 수집

from bs4 import BeautifulSoup #html 파싱

1. loacal 서버 파일 읽기

path = 'C:\\ITWILL\\4_Python-2\\workspace\\chap10_TextMining\\data' file = open(path + '/html01.html', mode='r', encoding='utf-8') src = file.read() #decoding 생략 file.close()

2. html 파싱

html = BeautifulSoup(src, 'html.parser') print(html)

3. 태그 내용 가져오기
1) find('tag') : 처음 태그 찾기

h1 = html.find('h1') h1 # <h1> 시멘틱 태그 ?</h1>

태그 내용 : string, text

h1.string #' 시멘틱 태그 ?' h1.text #' 시멘틱 태그 ?'

string vs text

h2 = html.find('h2') h2 #<h2> 주요 시멘틱 태그 <span> span 태그 </span> </h2> print(h2.string) #None print(h2.text) #주요 시멘틱 태그 span 태그

string : 하위 tag가 포함된 경우 내용 반환 없음(None)
text : 하위 tag가 포함된 경우 하위 tag 내용까지 반환

2) find_all('tag') : 모든 태그 찾기 - list 반환

lis = html.find_all('li') print(lis) len(lis) #5

list 내포 : # li 내용 저장

contents = [li.text for li in lis] print(contents)

tag attr

tag 속성과 내용 가져오기
tag element : tag + 속성 + 내용
ex) <a href="www.naver.com"> 네이버 </a>
<시작태그 속성="값"> 내용 </종료태그>

from bs4 import BeautifulSoup #html 파싱

1. loacal 서버 파일 읽기

path = 'C:\\ITWILL\\4_Python-2\\workspace\\chap10_TextMining\\data' file = open(path + '/html02.html', mode='r', encoding='utf-8') src = file.read() # decoding 생략 file.close()

2. html 파싱

html = BeautifulSoup(src, 'html.parser') print(html)

3. 태그 속성과 내용 가져오기

links = html.find_all('a') print(links) #list 반환 len(links) #5 #<a href="www.naver.com">네이버</a>

내용 출력

for link in links : print(link.text)

네이버
네이버
네이버 새창으로
다음
다음

속성 출력

urls = [] #url 저장 for link in links : #예외처리 try : #print(link.attrs) #{'href': 'www.naver.com'} - dict print(link.attrs['href']) #url 추출 urls.append(link.attrs['href']) #url 저장 print(link.attrs['target']) #target 속성 값 except Exception as e : print('예외 발생 : ', e)

'www.naver.com
http://www.naver.com
http://www.naver.com
www.duam.net
http://www.duam.net

print(urls)

['www.naver.com',
'http://www.naver.com',
'http://www.naver.com',
'www.duam.net',
'http://www.duam.net']

4. 정규표현식으로 정상 url 선정

import re new_urls = [] for url in urls : result = re.findall('^http://', url) #print(result) if result : #[] == False new_urls.append(url) print(new_urls) #['http://www.naver.com', 'http://www.naver.com', 'http://www.duam.net']