Superset

Superset이란?

Airbnb에서 시작된 오픈소스

Airflow를 만든 Maxim이란 사람이 같이 시작한 오픈소스

https://github.com/apache/superset

오픈소스인데 보안과 권한 제어 기능이 제공됨

SQLAlchemy와 연동(다양한 데이터베이스 지원)

그 데이터베이스 중 하나가 Druid.io. Druid.io와 연동하여 실시간 데이터 시각화 가능

확장성이 좋다 API와 플러그인 아키텍처 제공

대시보드 공유가 가능

 

GitHub - apache/superset: Apache Superset is a Data Visualization and Data Exploration Platform

Apache Superset is a Data Visualization and Data Exploration Platform - apache/superset

github.com

 

 

1. Docker 위에 올리기

2. https://preset.io/ 무료 어카운트 생성 후 실습

 

Superset 구조와 용어

파이썬 기반으로 Flask와 React JS로 구성

메타데이터 DB로 sqlite 사용

파일기반 싱글 스레드 

병렬성이 떨어져서 postgres, mysql을 사용

Redis를 캐싱레이어로 사용 해서 짧은 인터벌을 두고 동작

SQLAlchemy가 백엔드 DB 접근에 연동 (Redshift, Snowflake, 빅쿼리, Druid.io 등)

 

Database와 Dataset은 대시보드의 input이 된다

Database == 관계형 데이터베이스 (백엔드 DB)

Dataset == 테이블

Dashboard는 하나 이상의 chart로 구성

 

그룹이 아닌 역할 (role)을 사용하여 권한 부여

 

Redshift와 연동하여 Superset 대시보드 차트 만들기

사용한 Database: Redshift

차트 

1. 채널별 MAU(Monthly Active User) 차트

2. Monthly Cohort 차트

2개의 차트로 하나의 대시보드 생성

 

MAU 차트 

 

 

그외 대시보드 시각화 툴

tableau