Superset이란?
Airbnb에서 시작된 오픈소스
Airflow를 만든 Maxim이란 사람이 같이 시작한 오픈소스
https://github.com/apache/superset
오픈소스인데 보안과 권한 제어 기능이 제공됨
SQLAlchemy와 연동(다양한 데이터베이스 지원)
그 데이터베이스 중 하나가 Druid.io. Druid.io와 연동하여 실시간 데이터 시각화 가능
확장성이 좋다 API와 플러그인 아키텍처 제공
대시보드 공유가 가능
GitHub - apache/superset: Apache Superset is a Data Visualization and Data Exploration Platform
Apache Superset is a Data Visualization and Data Exploration Platform - apache/superset
github.com
1. Docker 위에 올리기
2. https://preset.io/ 무료 어카운트 생성 후 실습
Superset 구조와 용어
파이썬 기반으로 Flask와 React JS로 구성
메타데이터 DB로 sqlite 사용
파일기반 싱글 스레드
병렬성이 떨어져서 postgres, mysql을 사용
Redis를 캐싱레이어로 사용 해서 짧은 인터벌을 두고 동작
SQLAlchemy가 백엔드 DB 접근에 연동 (Redshift, Snowflake, 빅쿼리, Druid.io 등)
Database와 Dataset은 대시보드의 input이 된다
Database == 관계형 데이터베이스 (백엔드 DB)
Dataset == 테이블
Dashboard는 하나 이상의 chart로 구성
그룹이 아닌 역할 (role)을 사용하여 권한 부여
Redshift와 연동하여 Superset 대시보드 차트 만들기
사용한 Database: Redshift
차트
1. 채널별 MAU(Monthly Active User) 차트
2. Monthly Cohort 차트
2개의 차트로 하나의 대시보드 생성
MAU 차트
그외 대시보드 시각화 툴
tableau
등
'데브코스 데이터엔지니어링' 카테고리의 다른 글
[Airflow] Mac에서 도커로 Airflow 설치하기 (2) | 2024.12.27 |
---|---|
[Airflow] The "AIRFLOW_UID" variable is not set. Defaulting to a blank string. 에러 해결 (0) | 2024.12.27 |
[docker] docker 프로그램 개발 프로세스 (0) | 2024.12.27 |
[ETL] Airflow 설치하기 (on AWS EC2 ubuntu 서버) (0) | 2024.12.27 |
[AWS] EC2 우분투 ubuntu 인스턴스 생성 (0) | 2024.12.27 |