'데브코스 데이터엔지니어링' 카테고리의 글 목록 (7 Page)

[웹크롤링] 정적 웹 크롤링 requests 라이브러리

이번 시간에는 정적 웹페이지의 데이터를 가져오는 정적 웹 크롤링 라이브러리 requests를 사용해보도록 하겠습니다. requests 라이브러리 설치requests는 Python을 이용해서 HTTP 통신을 진행할 수 있는 라이브러리로 pip install 을 통해서 실행할 수 있습니다.pip install requests노트북 환경(.ipynb)에서는 %를 이용해서 터미널 코드 실행할 수 있습니다%pip install requests GET, POST 요청하기- 정보를 달라고 요청하는 것은 GET method 이용- 정보 갱신을 위한 요청은 POST method 이용네이버 홈페이지의 GET 요청 보내고 응답 받기import requestsres = requests.get("https://www.naver..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[Spark] Apache Spark 파티션과 병렬처리 구조(셔플링)

Spark 데이터 시스템 아키텍처 구성Spark은 별도의 파일 시스템을 가지고 있지 않음 ⇨ 분산 파일 시스템 필요HDFS, AWS S3, Azure Blob, GCP Cloud Storage (내부 데이터)Resource Manager(YARN, Kubernetes)그 위에 Spark이 올라감이외에도 Spark SQL, Spark Streaming, Spark GraphX, Spark ML과 같은 다양한 패키지가 있음큰 데이터를 ETL이나 Adhoc형태로 인터렉티브하게 쿼리를 날리기 위해서는 Hive나 Presto를 사용하면 되지만 하나의 시스템(Spark)로 다양한 기능이 제공되기 떄문에 대부분 Spark 사용외부 데이터(관계형 데이터베이스, NoSql 과 같은 프로덕션 DB)의 경우 주기적인 ETL..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

mysql 프로덕션DB= OLTP ->redshift DW= OLAP 로 복사하기

insert into 방식은 퍼포먼스가 좋지않음 레코드가 적을 경우 선호 2step mysql?copy 방식은 레코드가 많을 경우 (s3버킷 필요) 3step? 보안 설정 필요 IAM클라우드 지식 필요S3버킷 시스템 권한설정1. AIRFOLW DAG 에서 S3접근 파일 쓰기 (쓰기권한)- IAM User를 만들고 S3 버킷에 대한 읽기/쓰기 권한 설정하고 access key와 secret key를 사용2. redshift가 S3 접근 파일 읽기 (읽기권한)- Redshift에 S3를 접근할 수 있는 역할(Role)을 만들고 이를 Redshift에 지정+ mysql 과 연결

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[til] 숙제 apple updatesymbol_v2 incremental update 방식바꾸기

Airflow에서 하나의 DAG는 다수의 ()로 구성된다? task or operateDISTINCT 방식의 중복처리는 PK UNIKENESS 보장이 어려움PRIMARY키를 고려하지 않은 채로 중복 제거하기 때문에컬럼 값이 하나라도 다른 경우에는 중복이 제거되지 않음

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

Schedule cron tab 표현식 airflow

Schedule interval이 "30 * * * *"으로 설정된 DAG에 대한 올바른 설명은? ①매일 0시 30분마다 한번씩 실행된다 ②매시 30분마다 한번씩 실행된다 ③일요일마다 매시 30분에 한번씩 실행된다

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.

[TIL] incremental update 하면서 PK 유일성 보장하는 방법

PK 하나의 필드가 일반적 다수의 필드인 경우 composit key?CREATE TABLE 사용시 지정하는게 일반적1. 속성으로 지칭CREATE TABLE products ( product_id INT PRIMARY KEY, name VARCHAR(50) );2. 새로운 라인으로 따로 지칭 (하나 or PK값이 두개인 경우)CREATE TABLE orders( order_id INT, product_id INT, PRIMARY KEY(order_id, product_id), FOREIGN KEY (product_id) REFERENCES products (product_id) );FK키 데이터 정합성이나 데이터 관리 할 때 도움? 기재?하는게 좋음 필수는아님관계형 데이터베이스 시스템은 Pr..

format_list_bulleted 데브코스 데이터엔지니어링
· 2024. 12. 26.