1. 라이브러리 import
필요 라이브러리
- requests
- 웹페이지 가져오기 라이브러리
- bs4 (BeautifulSoup)
- 웹페이지 분석 라이브러리
import requests
from bs4 import BeautifulSoup
2. 웹페이지 가져오기
HTML 파일 확인하기
- 웹브라우저로 확인
- 오른쪽 클릭 + 페이지 소스 보기
- 라이브러리로 확인
res = requests.get('http://~')
res.content # 해당 웹페이지의 HTML 파일 확인
3. 웹페이지 파싱하기
- 파싱: 문자열의 의미 분석
- BeautifulSoup 라이브러리를 이용하여 파일을 일일이 파싱한다.
soup = BeautifulSoup(res.content, 'html.parser')
⭐4. 필요한 데이터 추출하기
- soup.find() 함수로 원하는 부분을 지정하면 된다.
- 변수.get_text() 함수로 추출한 부분을 가져올 수 있다.
- 필요한 데이터를 변수에 넣으면 이후 활용은 프로그래밍 영역이다.
mydata = soup.find('title')
print(mydata.get_text())
'Python > [강의] 파이썬입문과 크롤링기초' 카테고리의 다른 글
Open API를 활용한 크롤링 (0) | 2022.09.13 |
---|---|
크롤링 시 문제상황 대처 (0) | 2022.09.12 |
CSS selector 사용해서 크롤링하기 (0) | 2022.09.11 |
실전 크롤링과 크롤링 기술팁 (0) | 2022.09.11 |
웹구조와 HTML 이해하기 (0) | 2022.09.11 |