Databricks_AMOREPACIFIC_사례분석

아모레 퍼시픽 빅데이터 플랫폼.

전사 분석계 데이터 플랫폼 구축 및 운영. BI 서비스 제공

데이터브릭스 를 택한 이유

  • 데이터 파이프라인 복잡도 증가

  • 이분화된 플랫폼의 학습 비용

  • 데이터 추가/변경 제약 및 재처리 비용

  • 데이터 사일로 현상

pipeline_flow

이전의 to_be 파이프라인 흐름도

적용된 이전의 파이프라인 흐름도

Databricks API 를 활용한 workflow 구성

  • Airflow custom operator

    • 에어플로우를 사용해 데이터브릭스의 기능을 주기적으로 사용할 수 있도록 커스텀화.

  • Configure cluster

    • Auto start-up for All-purpose Compute

    • Auto scaling cluster/storage

소스코드 통합.

  • ETL 스크립트 통합

    • 단일 Notebook 활용

    • 다양한 언어의 실행환경 통합

Notebook 기반 쉬운 데이터 처리.

  • Template Notebook

    • ETL 파이프라인 단순화

  • 사용자 편의성

    • ETL 작업단계 축소

    • 개발/운영 환경 통합

Delta Lake 사용.

  • ACID 트랜잭션

    • 쉬운 데이터 변경

    • 과거 데이터 버전 관리

  • Optimizations

    • Auto-optimization

    • Query Hint

  • Table ACLs/RBAC

정리

Last updated