실전 크롤링과 크롤링 기술팁

1. 크롬 브라우저 활용하기

크롬 개발자 모드 (윈도우)
- Ctrl + Shift + i
- F12
마우스로 원하는 부분 클릭

2. 추출한 것에서 또 추출하기

find()로 더 크게 감싸는 HTML 태그로 추출하고
다시 추출된 데이터에서 find_all()로 원하는 부분을 추출
추출된 데이터는 객체(object) 이다.

import requests
from bs4 import BeautifulSoup
res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content,'html.parser')

section = soup.find('ul',id='hobby_course_list')
titles = section.find_all('li','course')
for title in titles:
    print(title.get_text())

3. 파이썬 문자열 함수와 함께 쓰기 (데이터 전처리)

strip() 함수: 문자열 앞뒤 공백 또는 특정 문자 삭제
split() 함수: 문자열 내부 공백 또는 특정 문자를 구분해서 리스트로 만듦

section = soup.find('ul',id='dev_course_list')
titles = section.find_all('li','course')
for index,title in enumerate(titles):
    print(str(index+1)+'.'+title.get_text().split('-')[1].split('[')[0].strip())

4. 여러 페이지를 한번에 크롤링하기

문자열 처리 활용하기

import requests
from bs4 import BeautifulSoup

for page_num in range(10):
	if page_num == 0: 
    	res = requests.get('https://davelee-fun.github.io/')
	else:
    	res = requests.get('https://davelee-fun.github.io/page' + str(page_num+1))
        
    soup = BeautifulSoup(res.content, 'html.parser')
    data = soup.select('h4.card-text')
    for item in data:
    	print(item.get_text().strip())

'Python > [강의] 파이썬입문과 크롤링기초' 카테고리의 다른 글

Open API를 활용한 크롤링 (0)	2022.09.13
크롤링 시 문제상황 대처 (0)	2022.09.12
CSS selector 사용해서 크롤링하기 (0)	2022.09.11
웹구조와 HTML 이해하기 (0)	2022.09.11
크롤링 코드 패턴으로 익히기 (0)	2022.09.11

1. 크롬 브라우저 활용하기

2. 추출한 것에서 또 추출하기

3. 파이썬 문자열 함수와 함께 쓰기 (데이터 전처리)

4. 여러 페이지를 한번에 크롤링하기

'Python > [강의] 파이썬입문과 크롤링기초' 카테고리의 다른 글

티스토리툴바