Sinbum's blog
  • 인셉션 개발자
    • History
    • Editorial Board
    • 세미나
      • MS_빅데이터_분석_교육
      • Databricks_Musinsa_사례분석
      • Databricks_AMOREPACIFIC_사례분석
    • 개발자 꿀팁
  • 리눅스
    • 리눅스 기초
      • 기본명령어
      • 프록시서버
      • 온프레미스
      • systemd
      • 우분투 앱
      • vi 사용법
    • 도커
      • MSA 아키텍처
      • 도커 설명
      • 도커 설치
      • 도커 가이드
        • 컨테이너 만들기
        • 컨테이너 보관
        • 컨테이너 사용
        • 컨테이너 관리
        • 컨테이너 볼륨
        • 컨테이너 통신
        • 도커 연습
  • 언어
    • 자바
      • 자바(JAVA)는 무엇인가?
        • JVM 메모리
      • 자바 설치 가이드
      • 자바 언어 활용
        • 변수
        • static
        • 상수
        • 연산자
        • 제어문
        • 배열
        • CLI-자바사용
        • 클래스
        • 메소드
        • 값에의한 호출
        • GUI 프레임
        • 생성자
        • 오버로딩
        • 상속
        • 상속생성자
        • 접근제한자 와 가비지 컬렉션
        • 추상클래스 와 인터페이스
        • 다중구현
        • 예외처리
        • 컬렉션 프레임워크
        • 쓰레드
        • 네트워크
        • 다중 접속 서버 구현
      • 간단한 채팅 앱 개발하기
    • 파이썬
      • 파이썬(Python)은 무엇인가?
      • 파이썬 설치 가이드
      • 파이썬 언어 활용
        • 변수
        • 입력,출력
        • 타입선언
        • 자료구조
        • 주석처리
        • 문자열
        • 리스트
        • 반복문
        • 연산자
        • 조건문
        • 정규표현식
          • re 모듈
          • 메타문자1
          • 메타문자2
          • 그루핑
          • 전방탐색
          • 문자열 바꾸기
          • Greedy 와 Non-Greedy
      • 마치며...
  • 형상관리,CI/CD
    • 깃허브
      • 깃허브 협업 모델
      • 깃허브 설치 와 ssl
      • 깃허브를 잘쓰는 팁 모음
  • BigData
    • BigData 개념
      • OLTP,OLAP
      • ELT,ETL
      • DW
      • ObjectStorage
      • LambdaArc
      • OGG
    • Kafka
      • 환경설정 및 소스코드 다운로드
      • 아파치 카프카는?
        • 카프카의 시작
        • 카프카 특성
        • 빅데이터 아키텍처
      • 카프카 기초 개념
    • BuildApplications
      • Airflow
      • Grafana
    • PowerBi
      • DAX
        • REMOVEFILTERS
        • DAX_문법
        • DAX_함수
    • Azure
      • SynapseAnalytics
  • IOT
    • 아두이노
      • 설치 및 기초
      • 센서의 종류
      • led 출력하기
      • 시리얼 통신
      • 무선 통신
  • About
    • SINBUM
    • INTEREST
    • PROJECTS
      • 업무 프로젝트
      • 개인 프로젝트
        • 티스토리API를 사용한 블로그 앱
        • 노션 API와 블로그 연동 자동화 하기
        • 로지텍 마우스 수리
    • CONTACT
Powered by GitBook
On this page
  • 데이터 브릭스 도입 배경
  • 데이터브릭스 선택 이유.
  • 데이터브릭스 도입 과정.
  • 데이터 수집
  • Unity Catalog
  • 정리
  1. 인셉션 개발자
  2. 세미나

Databricks_Musinsa_사례분석

데이터 브릭스 도입 배경

  1. One Data Platform, Multi Service

  • 무신사, 무신사 글로벌, 29CM, 레이지나잇. 솔드아웃

  • 여러 서비스의 독립된 클라우드 환경의 데이터를 하나의 폴랫폼으로 통합 필요

  1. 데이터 활용 증가

  • 프로덕트. 마케팅. 영업- 전사

  1. 페르소나에 따른 데이터 환경 제공 필요성

  • 분석. 머신러닝, 대시보드 뷰어 등 각 페르소나에 맞는 데이터 카탈로그와 개발/분석 환경 제공 필요

  1. 서비스 클라우드와 데이터 클라우드의 분리 필요성

  • 하나의 글라우드에 서비스와 데이터를 모두 운영함으로써 정책 충돌 발생

데이터브릭스 선택 이유.

  1. AWS와 통합

  • 서비스 AWS와 데이터 데이터브릭스의 Cross Account 설정을 통해서 기존 데이터 환경을 빠르게 마이그레이션 함.

  1. 오픈소스

    • 플랫폼의 개방성.

    • 아파치 스파크를 이용했던 기존 데이터 처리를 마이그레이션 하기 수월.

  2. 거버넌스

    • 중앙 관리가 가능한 거버넌스를 Unity Catalog 를 통해 제공하였다.

  3. ACID

  4. 데이터브릭스의 아키텍처

  • Data Plane + Control Plane 으로 나뉘어진 아키텍처에 자사 cloud 환경에 모든 데이터가 저장되는 구조.

데이터브릭스 도입 과정.

검토부터 운영 환경 구축까지의 절차는 다음과 같이 진행.

  • PoC 항목 작성

    • 거버넌스, 데이터분석, 머신러닝, 레이크하우스, 워크플로우 범위에서 약 44개를 검토함.

  • PoC 진행

  • 운영 환경 구축

    • VPC,SSO 관련 설정

    • 사용자, 사용자 그룹, 워크스페이스 등을 포함한 조직내 거버넌스 체계를 구축.

    • 데이터 마이그레이션

Proof of Concept 항목

페르소나에 따른 기능 검토.

  • 데이터 거버넌스

    • SSO 연동, 데이터 접근 구너한, cOMPUTE 사이즈 제어, 데이터 공유, 카타로그 서비스

  • 분석 환경

    • SQL, pYTHON 분석 환경, 대시보드

  • 머신러닝

    • 모델관리, AutoML

  • 워크플로우관리

  • 데이터 웨어하우징

    • 데이터 타입에 따른 델타레이크(delta lake) 에 데이터 통합

데이터 수집

데이터 수집의 방법과 아케틱처 설명.

서비스 데이터베이스 데이터 수집

관계형데이터 베이스의 변경분을 지속적으로 델타레이크에 마이그레이션 할 수 있는수준이 됨.

사용자 실시간 행동 로그

카탈로그 관리하는것이 인상적이다. 구글 스프레드 시트를 Unity Catalog 에 동기화 하는것. 유연하게 거버넌스를 관리 할 수 있다.

  • 카탈로그 관리 측면

  • 데이터 처리 측면

AWS에서 운영하던 기존 GOLD DATA

  • 카탈로그 관리

  • 데이터 처리

    • parquet(파키아) 형태로 데이터를 그대로 통으로 이전.

Unity Catalog

  • ANSI SQL로 권한 관리가 가능 하다.

  • Lineage

  • 데이터 검색

  • 테이블 자동 튜닝

데이터셋 관리

데이터셋에 따른 카탈로그를 부서 및 역할군 으로 나누어 관리함.

워크스페이스 관리

데이터 활용 범위에 따른 워크스페이스 활용

정리

  • 접근성

    • SSO

    • 데이터 공유

      • 누구나 데이터를 생성하고 공유할 수있음.

  • 거버넌스 측면

    • Unity Catalog

      • 컬럼 단위까지 접근제어가 가능하다.

    • 조직별 리소스 접근 제어

      • GPU Machine을 포함한 클러스터 사이즈 생성관리.

      • 페르소나에 따른 리소스 관리

  • 클라우드 통합

    • 기존 클라우드와 통합 가능한 데이터 플랫폼 구축.

PreviousMS_빅데이터_분석_교육NextDatabricks_AMOREPACIFIC_사례분석

Last updated 2 years ago

무신사_데이터_플랫폼_아키텍처.png
서비스 데이터베이스 데이터 수집.png
사용자 실시간 행동 로그.png
데이터셋 관리.png
워크스페이스 관리.png