학습 주제
- 데이터 마이닝 소개
- 데이터 마이닝 사례
- 데이터 마이닝 프로세스
- 데이터 웨어 하우스란?
- 데이터 웨어 하우스 구조
주요 학습 내용
- 데이터 마이닝
- 특정 데이터에 한정하지 않고
- 대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색
- 이로부터 유용한 지식을 추출하는 과정
- 과정
- 데이터 선택
- 전처리
- 데이터 변환
- 데이터 마이닝
- 해석 및 평가
- 데이터 마이닝 사용처
- 의사결정 강화
- 비지니스와 조직에서 의사 결정을 강화 (당위성을 확인)
- 데이터로부터의 통찰력으로 전략 계획 수립 진행 - 효율성 증대
- 조직 운영 효율성 상승 (비용 절감, 리스크 관리) - 고객 이해
- 고객의 요구 행동 이해
- 맞춤형 서비스 제품 개발 - 시장 동향 예측
- 의사결정 강화
- 데이터 마이닝 사례
- 코로나 19 데이터 마이닝
- 세계적 수준에서 경제, 사회, 보건 전반에 걸쳐 큰 영향을 미친 코로나 19 상황에서 데이터 마이닝이 활용
- 전반적인 흐름을 추적
: 감염자 수, 회복률, 백신 접종 현황, 인구 통계학 정보 등이 사용
- 위 정보를 이용
: 전파 속도, 패턴, 감염 차이, 백신의 효과성 등을 확인
- 2번째 정보를 이용
: 공중 보건 정책의 영향력 파악 및 이에 대한 의사 결정
백신의 효과 확인 및 위급 지역 우선 배포
변이 바이러스 예측 및 추적등 의사 결정에 활용
- 코로나 19 데이터 마이닝
- 실시간 GPS 데이터를 통한 최적 교통 정보 도출
- 실시간 차량의 위치 데이터, 움직이는 물체의 속도, 이동 방향 등의 데이터를 사용
- 이러한 정보를 이용
- 전반적인 차량의 교통 패턴, 교통량, 시간대별 교통 상황 등
- 사용자 행동 패턴 - 위 정보를 위용
- 어떤 경로로 주행을 할지
- 교통 체계 최적화 및 체증 완화 전략 개발
- 대규모 행사와 같은 신속한 교통 대응 계획 수립 등의 의사 결정에 사용
- DNA 데이터를 통한 범죄자 추적
- 현대 범죄 수사에서 사용하는 첨단 분석 방법
- 여러 사람의 DNA 데이터베이스와
- 수집한 비교 대상의 DNA 의 유사도를 분석
- 빠른 범죄자 추적 및 일치 여부 확인
- 정확한 범인 확인 과정에서 사용되며
- 증거 자료로서의 역할
- 데이터 수집 및 통합
- 목적으로 하는 문제를 풀기 위한 다양한 데이터를 수집
- 소셜 미디어, 고객 거래 기록, 센서 데이터 등
- 다양한 분석을 위해 서로 상이한 종류의 데이터를 모으는 것도 좋은 접근
- 데이터 통합 과정
- 만약 같은 종류의 데이터라면, 일관된 형식으로 만드는 과정 필요
- 크롤링 과정으로 생성된 DOM 구조 제거
- 이미지 데이터의 경우 크기 조절 등
- 만약 같은 종류의 데이터라면, 일관된 형식으로 만드는 과정 필요
- 데이터 품질 관리
- 데이터 검증 및 정화 (오류, 중복을 수정 및 제거)
- 완결성 검사 (누락 데이터 서칭 및 핸들링, 제거 혹은 가상의 값으로 대체)
- 모니터링 (품질을 지속적으로 모니터링, 업데이트로 인한 버전 관리)
- 목적으로 하는 문제를 풀기 위한 다양한 데이터를 수집
- 데이터 전처리
- 머신러닝 강의 혹은 이전 텍스트 마이닝 과정에서 진행한 것과 비슷
- 데이터를 분석하기 위한 가장 초기 과정이며 중요한 첫 단추
- 노이즈 및 오류 제거
- 노이즈로 인한 이상치 데이터를 확인 (IQR, 이상치 알고리즘 결과 등)
- 수집 과정에서의 이상 상태로 인한 오류 데이터 존재 가능
- 식별된 이상치 혹은 오류 데이터는 제거 혹은 수정
- 데이터 정규화
- 데이터의 스케일을 일치시키는 과정
- 서로 다른 데이터 사이의 일치 뿐 아니라
- 같은 데이터 내에서도 통일성을 위해 정규화를 진행
- ex) 너무 긴 문장을 자르기 - 등등, 모델 혹은 분석 방법에 맞는 전처리 과정 진행
- 데이터 마이닝 기법 적용
- 데이터 마이닝은 하나의 데이터에만 타겟팅 한 주제가 아님
- 숫자 데이터, 텍스트, 이미지, 시계열 데이터 등등
- 응용 분야로도.. 비지니스, 마케팅, 고객 관리, 공공 분야 등등
- 수집한 데이터에 특화된 데이터 분석 방법론을 적용
- 유의미한 패턴과 관계, 통찰을 도출하는 방법을 사용
- 가장 좋은 접근 방법으로는
- 비슷한 데이터를 분석한 사례를 확인
- 큰 흐름으로 보는 주요 마이닝 기법으로는 아래와 같음
- 분류(Classification), 클러스터링(Clustering), 예측(Prediction), 잠재적 의미 표면화 (Latent Representation) 등
- 데이터 마이닝은 하나의 데이터에만 타겟팅 한 주제가 아님
- 데이터 마이닝 결과 분석
- 마이닝의 기본 의미에 맞춰 넓고 많은 데이터에서 인사이트를 얻고 이를 바탕으로 의사 결정과 같은 과정에 사용
- 주의할 점
- 모델 평가 과정이 존재한다면
- 모델을 평가하는 평가 수치가 의사 결정에 도움이 되는 평가인지를 판단
- 평가한 데이터가 의미 있는 데이터인지 확인 필요 - 평가 과정 없이 사람의 직관과 판단이 들어가야 한다면
- 원본 데이터에 특이성과 같은 편향에서 자유로운지
- 그 직관에 위험성은 없는지 등이 필요
- 모델 평가 과정이 존재한다면
- 큰 대기업의 데이터 관리자 입장에서 생각
- 다양한 부서가 존재 (마케팅, 영업, CS, 연구 개발 등등)
- 특정 부서는 데이터가 생성되며, 임의의 부서는 다른 부서들의 데이터에 접근
- 이때마다 데이터 호출 인터페이스를 각각 따로 만든다면 너무 많은 비용이 필요
- 부서의 곱연산 만큼의 인터페이스가 필요
- 데이터를 생성하는 부서가 10개, 데이터를 소비하는 부서가 5개가 있다면 총 50개의 인터페이스가 필요
- 즉, 데이터의 흐름이 엉켜있는 형태, 이를 거미집 현상(Spider Web)이라고 한다.
- 데이터 웨어하우스 (Data Warehouse)
- 물류 창고를 두고 물건의 흐름을 컨트롤하는 것과 비슷
- 기업 내부에서 움직이는 데이터의 흐름을 효율적으로 컨트롤 할 수 있음
- 10개의 데이터 생성 부서와 5개의 소비 부서의 경우 15개의 데이터 흐름만 관리하면 됨 (더하기 연산)
- 이를 데이터가 모이는 창고(warehouse)라는 의미로 데이터 웨어하우스라고 함
- 데이터 웨어하우스에는 무엇을 저장하나
- 과거의 정보 등 조직이 수집한 데이터를 모두 저장
- 전통적으로 정형 데이터(structured data)를 저장하고 관리했지만 비정형 데이터(unstructured data)를 처리하고 저장하는 기능으로 통합
- 데이터 웨어하우스(DW) VS 데이터 베이스(DB)
- 두 개념은 정의와 목적부터 차이가 있음
- 데이터 베이스 (DB)
- 실시간 데이터 처리와 트랜잭션 관리에 중점을 둠
- 일상적인 업무 및 응용 프로그램에 필요한 현재의 데이터를 저장 및 관리
- 데이터의 신속한 read 와 write의 목적을 갖고 있음
- 데이터 웨어하우스 (DW)
- 대규모 데이터를 통합, 분석, 보고하는데 사용되는 시스템
- 과거의 데이터도 포함하고 있음
- 생성과 관리의 차원에서도 차이가 있음
- DB는 데이터 소비처 혹은 생산처에서 만들어지고 관리되는 대상이며
- DW는 DB의 데이터가 주기적으로 모여 만들어지게 됨
- 접근 사용자에 따른 차이도 존재
- DB : 다수의 사용들이 동시에 입력 및 수정 가능
- DW : 조직 내 특정 그룹의 사용자에게만 제한
- 데이터 웨어하우스의 구성 요소
- ETL (Extract, Transform, Load)
- 원천 데이터 소스에서 데이터를 추출(Extract)하고
- 저장할 형태에 맞춰 변형(Transform)하고
- 데이터 웨어하우스 중앙 데이터 저장소로 적제(Load)
- 중앙 데이터 저장소
- ETL 처리 된 데이터가 쌓이는 저장소
- 메타 데이터
- 데이터가 쌓이면서 만들어지는 추가 정보
- 원천 데이터의 장소, 중앙 데이터 저장소의 크기 및 구성 방법 등
- 접근
- 사용자의 데이터 저장소와의 상호작용 지원
- ETL (Extract, Transform, Load)
- 데이터 마트 (Data Mart)
- 특정 부서에서 어떠한 주제로 주기적으로 데이터를 보고자 요청
ex) 마케팅 부서에서 사용자들의 SNS를 통한 판매 데이터를 보고 싶다 - 이때, 데이터 웨어하우스에서는 요청에 맞는 작은 데이터 집합을 제공
- 그것을 데이터 마트(Data Mart)라고 함
- 소비자를 위해 창고에서 물건을 마트에 가져다 두는 것과 비슷 - 해당 부서에서 사용하는 데이터 베이스와는 다르게, 과거 데이터를 포함해, 분석과 보고를 목적으로 함
- 부서 중심적 & 주제 중심적
- 데이터 마트는 특정 부서나 특정 주제에 맞춰서 설계됨
- 항상 준비된 것이 아니라 주제에 맞는 부서의 요청이 있을 때 만들어 짐 - 데이터 집중도 ↑
- 관련 있는 데이터만 집중적으로 포함하고 있음
- 사용자 그룹이 필요로 하는 정보를 빠르고 쉽게 확인 가능 - 효율적 운영 및 사용자 친화성
- 큰 데이터 웨어하우스 시스템의 일부로 존재
- 집중도 있는 데이터의 최적화된 집합
- 필요한 데이터에 대한 간단한 쿼리와 간단한 분석 진행 가능
- 특정 부서에서 어떠한 주제로 주기적으로 데이터를 보고자 요청
반응형
'데이터분석' 카테고리의 다른 글
66-(1). A/B test (4) | 2024.03.05 |
---|---|
65. 추천 시스템, 컨텐츠 기반 필터링 (0) | 2024.02.28 |
63. NLP, 자연어 처리 (1) | 2024.02.27 |
62. 임베딩, 감정분석 (0) | 2024.02.26 |
61. Text, Data 마이닝 (0) | 2024.02.19 |