이번 시간에는 정적 웹페이지의 데이터를 가져오는 정적 웹 크롤링 라이브러리 requests를 사용해보도록 하겠습니다. requests 라이브러리 설치requests는 Python을 이용해서 HTTP 통신을 진행할 수 있는 라이브러리로 pip install 을 통해서 실행할 수 있습니다.pip install requests노트북 환경(.ipynb)에서는 %를 이용해서 터미널 코드 실행할 수 있습니다%pip install requests GET, POST 요청하기- 정보를 달라고 요청하는 것은 GET method 이용- 정보 갱신을 위한 요청은 POST method 이용네이버 홈페이지의 GET 요청 보내고 응답 받기import requestsres = requests.get("https://www.naver..
Spark 데이터 시스템 아키텍처 구성Spark은 별도의 파일 시스템을 가지고 있지 않음 ⇨ 분산 파일 시스템 필요HDFS, AWS S3, Azure Blob, GCP Cloud Storage (내부 데이터)Resource Manager(YARN, Kubernetes)그 위에 Spark이 올라감이외에도 Spark SQL, Spark Streaming, Spark GraphX, Spark ML과 같은 다양한 패키지가 있음큰 데이터를 ETL이나 Adhoc형태로 인터렉티브하게 쿼리를 날리기 위해서는 Hive나 Presto를 사용하면 되지만 하나의 시스템(Spark)로 다양한 기능이 제공되기 떄문에 대부분 Spark 사용외부 데이터(관계형 데이터베이스, NoSql 과 같은 프로덕션 DB)의 경우 주기적인 ETL..
insert into 방식은 퍼포먼스가 좋지않음 레코드가 적을 경우 선호 2step mysql?copy 방식은 레코드가 많을 경우 (s3버킷 필요) 3step? 보안 설정 필요 IAM클라우드 지식 필요S3버킷 시스템 권한설정1. AIRFOLW DAG 에서 S3접근 파일 쓰기 (쓰기권한)- IAM User를 만들고 S3 버킷에 대한 읽기/쓰기 권한 설정하고 access key와 secret key를 사용2. redshift가 S3 접근 파일 읽기 (읽기권한)- Redshift에 S3를 접근할 수 있는 역할(Role)을 만들고 이를 Redshift에 지정+ mysql 과 연결
Schedule interval이 "30 * * * *"으로 설정된 DAG에 대한 올바른 설명은? ①매일 0시 30분마다 한번씩 실행된다 ②매시 30분마다 한번씩 실행된다 ③일요일마다 매시 30분에 한번씩 실행된다
PK 하나의 필드가 일반적 다수의 필드인 경우 composit key?CREATE TABLE 사용시 지정하는게 일반적1. 속성으로 지칭CREATE TABLE products ( product_id INT PRIMARY KEY, name VARCHAR(50) );2. 새로운 라인으로 따로 지칭 (하나 or PK값이 두개인 경우)CREATE TABLE orders( order_id INT, product_id INT, PRIMARY KEY(order_id, product_id), FOREIGN KEY (product_id) REFERENCES products (product_id) );FK키 데이터 정합성이나 데이터 관리 할 때 도움? 기재?하는게 좋음 필수는아님관계형 데이터베이스 시스템은 Pr..