데이터분석

1. 데이터란?

장수우 2023. 11. 20. 17:20
학습 주제
  1. 데이터란?
  2. 데이터 팀의 미션과 발전 단계
  3. 클라우드란?
  4. 데이터 조직 구성원
  5. 데이터 문해력의 정의와 중요성
  6. 데이터 일을 할 때 기억할 점

 

주요 메모 사항 소개
  • 데이터
    - 우리 일상 생활에 존재하는 모든 것을 기록하고 수집하는 것
  • 데이터 조직의 미션 / 하는 일
    - 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성하는 것
    - 데이터의 잘못된 노출과 사용으로 인한 위험을 줄여야 한다.
    - 의사 결정권자에게 의견을 제공한다 (데이터를 고려한 결정)
    - 사용자 서비스 경험 개선 혹은 프로세스 최적화
  •  데이터 인프라(ETL / 데이터 웨어하우스) 구축하는법
    1. 서비스에서  직접 생기는 데이터와 써드파티를 통해 생기는 간접 데이터 추출
    2. ETL (Extract / Transform / Load)
    3. 데이터 웨어하우스
       - 데이터 크기가 커지면 빅데이터 처리 기술 습득이 필요하다(Spark)
       - 데이터 엔지니어가 수행
  • 데이터 분석 수행 
    1. ETL 된 데이터를 조합하여 새로운 정보 생성(ELT)
    2. 좋은 지표 정의, 대시보드 생성/관리, 데이터 기반 리포트 작성
     - 데이터 분석가가 수행
  • 데이터 과학 적용
    1. 사용자 경험 개선하여 적용
       - 데이터 과학자가 수행
    ----------------------------------------------------------------------------------------------
  • 데이터 웨어하우스 (Data Warehouse)
    - 회사에 필요한 데이터를 모아놓은 중앙 DB (SQL)
    - 데이터 조직이 되는 첫 번째 스텝이다.
    - 보존 기한이 있는 구조화된 데이터를 저장하고 처리한다.
    - 보통 BI 툴(룩커, 태블로, 수퍼셋, ...)은 데이터 웨어하우스 백엔드로 사용한다.
    ※ 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다. ※ 
  • 데이터 레이크 (Data Lake)
    - 구조화 데이터 + 비구조화 데이터
    - 보존 기한 없는 모든 데이터 원래 형태로 보존하는 스토리지에 가깝다.
    - 웨어하우스보다 몇배는 큰 스토리지를 가진다
  • KPI (Key Performance Indicator)
    - 조직내에서 달성하고자 하는 중요한 목표 (정량적 숫자 / 정의가 매우중요)
    - KPI 수는 적을 수록 좋다
    - 시간에 따른 성과를 추적하는데 용이
  • 시각화 대시보드
    - 중요한 지표를 시간의 흐름과 함께 보여주는 것
    - 3A (Accessible, Actionable, Auditable)가 중요
    - Tableau, Power BI, Looker 가 대표적
  • 클라우드
    - 컴퓨팅 자원(소프트,하드웨어)을 네트웍통해 서비스 형태로 사용 하는것
    - 자원을 필요한 만큼 지불하여 비용과 시간, 공간에 이점이 있음
    - AWS 가 대표적으로 사용되며 다양한 클라우드 스토리지 / 서버 타입을 제공한다.
       ~ S3 (Simple Storage Service) http://aws.amazon.com/s3/
       ~ EC2(Elastic Compute Cloud) http://aws.amazon.com/ec2/
  • 머신러닝 모델링 사이클
    1. 가설 설정 (문제 정의)
    2. 훈련용 데이터 수집        → →
    3. 모델 빌딩과 테스트      ↑      ↓
    4. 모델 배포 (복잡)          ↑      ↓     - 다수의 짧은 사이클로 점진적 개선
    5. 모델 A/B 테스트          ↑      ↓
    6. A/B 테스트 결과 분석     ← ←
    7. 비지니스 개선 (매출증대, 경비절약, ...)
아마존 설명 ETL ELT
의미 추출, 전환, 적재 추출, 적재, 전환
처리 데이터 시스템 밖에 있는 데이터 안으로 가져옴 데이터 시스템 안에있는 데이터 조합하여 새로운 데이터 만듬
전환 및 적재 위치 보조 처리 서버에서 전환 수행 대상 데이터 웨어하우스에서 전환 수행
데이터 호환성 정형 데이터에 적합 정형, 비정형 및 반정형 데이터 처리가능
속도 상대적으로 느림 상대적으로 빠름
(웨어하우스 내부 리소스사용가능)
비용 도구에 따라 시간과 비용이 많이 듬 인프라에따라 효율적
보안 사용자 지정 애플리케이션 구축해야함 대상 DB 기본 제공 기능 사용하여 데이터 보호 관리 가능
반응형