'분류 전체보기' 카테고리의 글 목록 (6 Page)

[Airflow] Apache 에어플로우 아키텍처

Airflow 란?파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크Airbnb에서 시작한 아파치 오픈소스 프로젝트가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크데이터 파이프라인 스케쥴링 지원웹 UI 제공데이터 파이프라인 작성을 쉽게 해줌(데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공-operator)데이터 파이프라인 관리 관련 다양한 기능 제공 특히 BackfillAirflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름- 하나의 DAG는 하나 이상의 태스크로 구성Airflow 2.10.4이 2024년 12월에 릴리스(최신 버전)https://airflow.apache.org/docs/apache-airflow/stable/releas..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 27.

[프로젝트] OpenSky REST API 호출하여 항공 데이터 수집

데이터 양과 데이터 생성 시간을 고려해서 최종 프로젝트로 전세계 공항이나 항공사의 포화 상태를 나타내는 대시보드를 만들기로 결정했습니다. 데이터 수집을 위해 OpenSky에서 제공하는 API를 사용하기로 하였습니다. OpenSky API를 Python 라이브러리로 사용하기 위해 Github에서 직접 설치하거나, 수동으로 파일을 다운로드 받아서 설치하는 방법이 있고, 혹은 REST API를 직접 호출하여 HTTP 요청을 하는 방식이 있습니다. 저희 팀은 직접 라이브러리를 설치하기 보다는 REST API를 호출해서 사용하는 방법을 택하였습니다. OpenSky Network 계정 생성 및 로그인이를 위해서 우선 OpenSky Network에서 계정을 생성해 줍니다. The OpenSky Network -..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[웹크롤링] BeautifulSoup 웹스크래핑 attribute 속성 참조

관리자도구 태그 확인 가능콘텐츠 기반으로 스크래핑 하는 경우, 특정 태그를 해킹해서 스크래핑 하는 건 가장 간단하고 직관적인 방법이지만 대상이 되는 웹페이지가 항상 같은 구조가 아닐 수도 있어서 좋다고 볼 수 는 없음. HTML 요청을 위한 requests 라이브러리, HTML Parsing을 위한 BeautifulSoup 라이브러리를 이용할 예정입니다. 객체를 통해 python에서 할 수 있는 건 1. method를 호출 2. attribute 속성을 참조

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[웹크롤링] BeautifulSoup로 페이지네이션(pagination) 구현

페이지네이션 Pagination많은 정보를 인덱스로 구분하는 기법을 페이지네이션(Pagination)이라고 합니다. 여러 페이지로 구분되어 있는 정보를 얻기 위해서 BeautifulSoup를 통해 어떻게 구현하는지 알아봅시다. https://school.programmers.co.kr/learn/challenges/questions?page={i} 프로그래머스 웹페이지를 참조해서 페이지네이션 되어있는 질문 리스트의 제목을 가져와 보겠습니다.

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[웹크롤링] HTML의 Locator로 웹스크래핑(Web Scraping)

HTML Locator (id, class)HTML 태그는 자신의 이름 뿐만 아니라 고유한 속성을 가질 수 있는데, 특정 태그 요소를 지칭하는 Locator가 있고 id, class를 사용합니다. - tagname 태그의 이름- id 하나의 고유 태그를 가리키는 라벨- class 여러 태그를 묶는 라벨This element has only tagnameThis element has tagname and idThis element has tagname and class 네이버 뉴스 IT/과학면 (https://news.naver.com/section/105) 에서 HTML 문서를 가져와 soup 객체에 파싱해서 저장해줍니다. id 를 이용해서 요소 가져오기id가 results인 div 태그를 찾아봅시다.c..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[웹크롤링] 정적 웹크롤링 BeautifulSoup

requests모듈을 이용해서 HTTP요청을 보내고 응답을 받아 body내용을 확인해보았습니다.하지만, 이 경우에 원하는 요소만 가져올 수 없어서 분석하기에 어려운 점이 있었습니다.HTML ParsingHTTP Parser을 사용하는 모듈인 BeautifulSoup를 이용해서 원하는 요소만 가져오도록 하겠습니다. BeautifulSoup 설치pip install beautifulsoup4# or pip install bs4노트북 환경(.ipynb)에서 실행하기 위해서는 %를 이용합니다. BeautifulSoup은 HTML Parser이기 때문에 HTML 파일이 필요합니다. 이를 위해 requests.get로 HTML 사이트 요청을 하고 응답 받아보겠습니다.res를 그대로 사용하지 않고 HTML par..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.