[MLOps] Data Ingestion - ETL

CRM, 데이터베이스 등 여러 시스템에 흩어진 데이터를 ETL 프로세스로 통합하여, 비즈니스 분석과 의사결정에 활용하는 방법을 알아봅니다.

[MLOps] Data Ingestion - ETL
Photo by Nick Harsell / Unsplash

개요

데이터가 어떻게 저장되는지 확인하고 정리했습니다.

이를 위해 조직에서는 어떠한 데이터를 사용하고 저장하는지 확인합니다.

조직의 데이터 저장 방식

조직은 비즈니스의 다양한 측면을 파악하기 위해 여러 시스템을 사용하여 데이터를 저장하고 관리합니다. 각 시스템은 고유한 목적을 가집니다.

  • CRM (고객 관계 관리): 영업 및 마케팅 팀의 핵심 도구로, 고객 정보, 상호작용 기록, 잠재 고객 등을 관리합니다.
  • 마케팅 자동화 플랫폼: 이메일 캠페인 실행과 성과(오픈율, 참여도 등) 분석에 사용됩니다.
  • 소셜 미디어 플랫폼: 콘텐츠를 확산할 뿐만 아니라, 고객과의 상호작용을 통해 브랜드에 대한 감성(sentiment)을 측정하는 데 활용됩니다.
  • 웹 & 모바일 앱 분석: 사용자 행동, 트래픽 유입 경로, 핵심 참여 지표 등 디지털 채널에서 발생하는 방대한 양의 데이터를 추적하고 분석합니다.
  • 데이터베이스: 애플리케이션과 마이크로서비스를 지원하며, 정형 데이터를 빠르고 안정적으로 저장하고 접근할 수 있도록 합니다.
  • IoT 기기: 공장 설비나 기계 등에서 실시간 데이터를 생성하여 운영 상황을 모니터링하고 효율성을 높이는 데 사용됩니다.
  • 기타 소스: 위 시스템 외에도 구글 시트, 문서, 이미지 등 다양한 형태의 데이터 소스가 존재합니다.

ETL 이란?

Notion Image

ETL은 추출(Extract), 변환(Transform), 적재(Load)의 약자로, 위와 같이 여러 곳에 흩어져 있는 데이터를 한곳으로 모아 분석 및 활용할 수 있도록 가공하는 전체 과정을 의미합니다.

  • 추출 (Extract): CRM, 데이터베이스, IoT 기기 등 다양한 원본 소스로부터 원시 데이터(raw data)를 가져옵니다. (예: Talend, DBT 같은 도구 사용)
  • 변환 (Transform): 수집된 데이터는 형식이 제각각이므로, 분석 및 사용 목적에 맞게 데이터를 정제하고 구조를 통일하는 등 필요한 형태로 가공합니다.
  • 적재 (Load): 변환된 데이터를 데이터 웨어하우스(Data Warehouse)와 같은 최종 목적지에 저장하여 사용자가 쉽게 접근하고 활용할 수 있도록 합니다.