오늘은 웹 크롤링을 공부하면서 배우게 된 내용을 정리해보고자 합니다. 웹 크롤링을 할때 크게 두 가지 유형의 웹 페이지를 만나게 되는게 정적 웹 페이지 와 동적 웹 페이지 입니다.
🖥️ 정적 웹 페이지 (Static Webpage)
- 서버에 미리 저장된 HTML 파일이 클라이언트에게 그대로 전달되는 웹 페이지.
- 네이버 검색 결과
🖥️ 동적 웹 페이지 (Dynamic Webpage)
- 서버에서 데이터베이스를 통해 콘텐츠를 동적으로 생성하여 클라이언트에 따라 실시간으로 변동되는 웹 페이지.
- 로그인 후 사용 가능한 네이버 메일
🖥️ 정적 수집/ 동적 수집 비교
- 수집하고자 하는 페이지가 정적인지 동적인지에 따라 파이썬 패키지가 달라짐.
| 정적 수집 | 동적 수집 | |
| 사용패키지 | requests/ urllib | selenium |
| 수집 사이트 | 정적 웹페이지 | 정적/동적 웹페이지 |
| 수집 속도 | 빠름 | 상대적으로 느림 |
| 파싱 패키지 | beautifulsoup | beautifulsoup/ selenium |
'데브코스 데이터엔지니어링' 카테고리의 다른 글
| git branch 로컬 브랜치 삭제하기 (1) | 2024.11.08 |
|---|---|
| 유클리드 알고리즘(최대공약수 GCD, 최소공배수 LCM) 구하기 (0) | 2024.11.07 |
| SQL CTAS(CREATE TABLE AS SELECT)문 (0) | 2024.10.23 |
| 알고리즘 빅오 표기법(Big-O notation) 이해하기 (0) | 2024.10.15 |
| 깃(Git) 깃허브(GitHub) 개발 순서 정리 (0) | 2024.10.15 |