데이터분석
1. 데이터란?
장수우
2023. 11. 20. 17:20
학습 주제
- 데이터란?
- 데이터 팀의 미션과 발전 단계
- 클라우드란?
- 데이터 조직 구성원
- 데이터 문해력의 정의와 중요성
- 데이터 일을 할 때 기억할 점
주요 메모 사항 소개
- 데이터
- 우리 일상 생활에 존재하는 모든 것을 기록하고 수집하는 것 - 데이터 조직의 미션 / 하는 일
- 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성하는 것
- 데이터의 잘못된 노출과 사용으로 인한 위험을 줄여야 한다.
- 의사 결정권자에게 의견을 제공한다 (데이터를 고려한 결정)
- 사용자 서비스 경험 개선 혹은 프로세스 최적화 - 데이터 인프라(ETL / 데이터 웨어하우스) 구축하는법
1. 서비스에서 직접 생기는 데이터와 써드파티를 통해 생기는 간접 데이터 추출
2. ETL (Extract / Transform / Load)
3. 데이터 웨어하우스
- 데이터 크기가 커지면 빅데이터 처리 기술 습득이 필요하다(Spark)
- 데이터 엔지니어가 수행 - 데이터 분석 수행
1. ETL 된 데이터를 조합하여 새로운 정보 생성(ELT)
2. 좋은 지표 정의, 대시보드 생성/관리, 데이터 기반 리포트 작성
- 데이터 분석가가 수행 - 데이터 과학 적용
1. 사용자 경험 개선하여 적용
- 데이터 과학자가 수행---------------------------------------------------------------------------------------------- - 데이터 웨어하우스 (Data Warehouse)
- 회사에 필요한 데이터를 모아놓은 중앙 DB (SQL)
- 데이터 조직이 되는 첫 번째 스텝이다.
- 보존 기한이 있는 구조화된 데이터를 저장하고 처리한다.
- 보통 BI 툴(룩커, 태블로, 수퍼셋, ...)은 데이터 웨어하우스 백엔드로 사용한다.
※ 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다. ※ - 데이터 레이크 (Data Lake)
- 구조화 데이터 + 비구조화 데이터
- 보존 기한 없는 모든 데이터 원래 형태로 보존하는 스토리지에 가깝다.
- 웨어하우스보다 몇배는 큰 스토리지를 가진다 - KPI (Key Performance Indicator)
- 조직내에서 달성하고자 하는 중요한 목표 (정량적 숫자 / 정의가 매우중요)
- KPI 수는 적을 수록 좋다
- 시간에 따른 성과를 추적하는데 용이 - 시각화 대시보드
- 중요한 지표를 시간의 흐름과 함께 보여주는 것
- 3A (Accessible, Actionable, Auditable)가 중요
- Tableau, Power BI, Looker 가 대표적 - 클라우드
- 컴퓨팅 자원(소프트,하드웨어)을 네트웍통해 서비스 형태로 사용 하는것
- 자원을 필요한 만큼 지불하여 비용과 시간, 공간에 이점이 있음
- AWS 가 대표적으로 사용되며 다양한 클라우드 스토리지 / 서버 타입을 제공한다.
~ S3 (Simple Storage Service) http://aws.amazon.com/s3/
~ EC2(Elastic Compute Cloud) http://aws.amazon.com/ec2/ - 머신러닝 모델링 사이클
1. 가설 설정 (문제 정의)
2. 훈련용 데이터 수집 → →
3. 모델 빌딩과 테스트 ↑ ↓
4. 모델 배포 (복잡) ↑ ↓ - 다수의 짧은 사이클로 점진적 개선
5. 모델 A/B 테스트 ↑ ↓
6. A/B 테스트 결과 분석 ← ←
7. 비지니스 개선 (매출증대, 경비절약, ...)
아마존 설명 | ETL | ELT |
의미 | 추출, 전환, 적재 | 추출, 적재, 전환 |
처리 | 데이터 시스템 밖에 있는 데이터 안으로 가져옴 | 데이터 시스템 안에있는 데이터 조합하여 새로운 데이터 만듬 |
전환 및 적재 위치 | 보조 처리 서버에서 전환 수행 | 대상 데이터 웨어하우스에서 전환 수행 |
데이터 호환성 | 정형 데이터에 적합 | 정형, 비정형 및 반정형 데이터 처리가능 |
속도 | 상대적으로 느림 | 상대적으로 빠름 (웨어하우스 내부 리소스사용가능) |
비용 | 도구에 따라 시간과 비용이 많이 듬 | 인프라에따라 효율적 |
보안 | 사용자 지정 애플리케이션 구축해야함 | 대상 DB 기본 제공 기능 사용하여 데이터 보호 관리 가능 |
- A/B 테스트
- 실험과도 같다 (Split Test or Bucket Test)
- 무작위 배정 임상시험의 온라인 버전이다 ( 참조 : https://en.wikipedia.org/wiki/Randomized_controlled_trial)
- 하나의 기존버과 하나 이상의 테스트 버전을 같이 돌리면서 확인
반응형