데이터분석

64. 데이터 마이닝

장수우 2024. 2. 27. 23:11
학습 주제
  • 데이터 마이닝 소개
  • 데이터 마이닝 사례
  • 데이터 마이닝 프로세스
  • 데이터 웨어 하우스란?
  • 데이터 웨어 하우스 구조
주요 학습 내용
  • 데이터 마이닝
    • 특정 데이터에 한정하지 않고 
    • 대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색 
    • 이로부터 유용한 지식을 추출하는 과정 
    • 과정
      1. 데이터 선택
      2. 전처리
      3. 데이터 변환
      4. 데이터 마이닝
      5. 해석 및 평가
    • 데이터 마이닝 사용처
      1. 의사결정 강화 
        - 비지니스와 조직에서 의사 결정을 강화 (당위성을 확인)
        - 데이터로부터의 통찰력으로 전략 계획 수립 진행 
      2. 효율성 증대 
        - 조직 운영 효율성 상승 (비용 절감, 리스크 관리) 
      3. 고객 이해 
        - 고객의 요구 행동 이해 
        - 맞춤형 서비스 제품 개발 
      4. 시장 동향 예측 
  • 데이터 마이닝 사례
    • 코로나 19 데이터 마이닝
      - 세계적 수준에서 경제, 사회, 보건 전반에 걸쳐 큰 영향을 미친 코로나 19 상황에서 데이터 마이닝이 활용 
      - 전반적인 흐름을 추적
        : 감염자 수, 회복률, 백신 접종 현황, 인구 통계학 정보 등이 사용 
      - 위 정보를 이용
        : 전파 속도, 패턴, 감염 차이, 백신의 효과성 등을 확인 
      - 2번째 정보를 이용
        : 공중 보건 정책의 영향력 파악 및 이에 대한 의사 결정 
          백신의 효과 확인 및 위급 지역 우선 배포 
         변이 바이러스 예측 및 추적등 의사 결정에 활용
  • 실시간 GPS 데이터를 통한 최적 교통 정보 도출
    • 실시간 차량의 위치 데이터, 움직이는 물체의 속도, 이동 방향 등의 데이터를 사용
    • 이러한 정보를 이용
      - 전반적인 차량의 교통 패턴, 교통량, 시간대별 교통 상황 등 
      - 사용자 행동 패턴 
    • 위 정보를 위용
      - 어떤 경로로 주행을 할지
      - 교통 체계 최적화 및 체증 완화 전략 개발 
      - 대규모 행사와 같은 신속한 교통 대응 계획 수립 등의 의사 결정에 사용 
  • DNA 데이터를 통한 범죄자 추적
    - 현대 범죄 수사에서 사용하는 첨단 분석 방법
    - 여러 사람의 DNA 데이터베이스와 
    - 수집한 비교 대상의 DNA 의 유사도를 분석 
    - 빠른 범죄자 추적 및 일치 여부 확인 
    - 정확한 범인 확인 과정에서 사용되며 
    - 증거 자료로서의 역할 

  • 데이터 수집 및 통합
    • 목적으로 하는 문제를 풀기 위한 다양한 데이터를 수집 
      1. 소셜 미디어, 고객 거래 기록, 센서 데이터 등 
      2. 다양한 분석을 위해 서로 상이한 종류의 데이터를 모으는 것도 좋은 접근
    •  데이터 통합 과정 
      1. 만약 같은 종류의 데이터라면, 일관된 형식으로 만드는 과정 필요 
        - 크롤링 과정으로 생성된 DOM 구조 제거
        - 이미지 데이터의 경우 크기 조절 등
    •  데이터 품질 관리 
      1. 데이터 검증 및 정화 (오류, 중복을 수정 및 제거)
      2. 완결성 검사 (누락 데이터 서칭 및 핸들링, 제거 혹은 가상의 값으로 대체)
      3. 모니터링 (품질을 지속적으로 모니터링, 업데이트로 인한 버전 관리) 
  • 데이터 전처리
    • 머신러닝 강의 혹은 이전 텍스트 마이닝 과정에서 진행한 것과 비슷
    • 데이터를 분석하기 위한 가장 초기 과정이며 중요한 첫 단추 
    • 노이즈 및 오류 제거 
      1. 노이즈로 인한 이상치 데이터를 확인 (IQR, 이상치 알고리즘 결과 등) 
      2. 수집 과정에서의 이상 상태로 인한 오류 데이터 존재 가능 
      3. 식별된 이상치 혹은 오류 데이터는 제거 혹은 수정 
    • 데이터 정규화 
      1. 데이터의 스케일을 일치시키는 과정 
      2. 서로 다른 데이터 사이의 일치 뿐 아니라 
      3. 같은 데이터 내에서도 통일성을 위해 정규화를 진행 
        - ex) 너무 긴 문장을 자르기 
      4. 등등, 모델 혹은 분석 방법에 맞는 전처리 과정 진행
  • 데이터 마이닝 기법 적용
    • 데이터 마이닝은 하나의 데이터에만 타겟팅 한 주제가 아님
      1. 숫자 데이터, 텍스트, 이미지, 시계열 데이터 등등 
      2. 응용 분야로도.. 비지니스, 마케팅, 고객 관리, 공공 분야 등등
    • 수집한 데이터에 특화된 데이터 분석 방법론을 적용 
    • 유의미한 패턴과 관계, 통찰을 도출하는 방법을 사용 
    • 가장 좋은 접근 방법으로는 
    • 비슷한 데이터를 분석한 사례를 확인
    • 큰 흐름으로 보는 주요 마이닝 기법으로는 아래와 같음
      - 분류(Classification), 클러스터링(Clustering), 예측(Prediction), 잠재적 의미 표면화 (Latent Representation)  등
  • 데이터 마이닝 결과 분석
    • 마이닝의 기본 의미에 맞춰 넓고 많은 데이터에서 인사이트를 얻고 이를 바탕으로 의사 결정과 같은 과정에 사용 
    • 주의할 점
      1. 모델 평가 과정이 존재한다면
        - 모델을 평가하는 평가 수치가 의사 결정에 도움이 되는 평가인지를 판단
        - 평가한 데이터가 의미 있는 데이터인지 확인 필요 
      2. 평가 과정 없이 사람의 직관과 판단이 들어가야 한다면
        - 원본 데이터에 특이성과 같은 편향에서 자유로운지
        - 그 직관에 위험성은 없는지 등이 필요

  • 큰 대기업의 데이터 관리자 입장에서 생각
    • 다양한 부서가 존재 (마케팅, 영업, CS, 연구 개발 등등)
    • 특정 부서는 데이터가 생성되며, 임의의 부서는 다른 부서들의 데이터에 접근 
    • 이때마다 데이터 호출 인터페이스를 각각 따로 만든다면 너무 많은 비용이 필요
    • 부서의 곱연산 만큼의 인터페이스가 필요
    • 데이터를 생성하는 부서가 10개, 데이터를 소비하는 부서가 5개가 있다면 총 50개의 인터페이스가 필요 
    • 즉, 데이터의 흐름이 엉켜있는 형태, 이를 거미집 현상(Spider Web)이라고 한다.
  • 데이터 웨어하우스 (Data Warehouse) 
    •  물류 창고를 두고 물건의 흐름을 컨트롤하는 것과 비슷
    • 기업 내부에서 움직이는 데이터의 흐름을 효율적으로 컨트롤 할 수 있음 
    • 10개의 데이터 생성 부서와 5개의 소비 부서의 경우 15개의 데이터 흐름만 관리하면 됨 (더하기 연산) 
    • 이를 데이터가 모이는 창고(warehouse)라는 의미로 데이터 웨어하우스라고 함 
  • 데이터 웨어하우스에는 무엇을 저장하나
    • 과거의 정보 등 조직이 수집한 데이터를 모두 저장
    • 전통적으로 정형 데이터(structured data)를 저장하고 관리했지만 비정형 데이터(unstructured data)를 처리하고 저장하는 기능으로 통합
  • 데이터 웨어하우스(DW) VS 데이터 베이스(DB) 
    • 두 개념은 정의와 목적부터 차이가 있음 
    • 데이터 베이스 (DB)
      1. 실시간 데이터 처리와 트랜잭션 관리에 중점을 둠 
      2. 일상적인 업무 및 응용 프로그램에 필요한 현재의 데이터를 저장 및 관리 
      3. 데이터의 신속한 read 와 write의 목적을 갖고 있음 
    •  데이터 웨어하우스 (DW)
      1. 대규모 데이터를 통합, 분석, 보고하는데 사용되는 시스템 
      2. 과거의 데이터도 포함하고 있음 
    • 생성과 관리의 차원에서도 차이가 있음 
      1. DB는 데이터 소비처 혹은 생산처에서 만들어지고 관리되는 대상이며
      2. DW는 DB의 데이터가 주기적으로 모여 만들어지게 됨 
    • 접근 사용자에 따른 차이도 존재 
      1. DB : 다수의 사용들이 동시에 입력 및 수정 가능 
      2. DW : 조직 내 특정 그룹의 사용자에게만 제한 
  • 데이터 웨어하우스의 구성 요소
    • ETL (Extract, Transform, Load) 
      1. 원천 데이터 소스에서 데이터를 추출(Extract)하고 
      2. 저장할 형태에 맞춰 변형(Transform)하고 
      3. 데이터 웨어하우스 중앙 데이터 저장소로 적제(Load) 
    • 중앙 데이터 저장소 
      1. ETL 처리 된 데이터가 쌓이는 저장소 
    • 메타 데이터
      1. 데이터가 쌓이면서 만들어지는 추가 정보 
      2. 원천 데이터의 장소, 중앙 데이터 저장소의 크기 및 구성 방법 등 
    • 접근 
      1. 사용자의 데이터 저장소와의 상호작용 지원
  • 데이터 마트 (Data Mart) 
    • 특정 부서에서 어떠한 주제로 주기적으로 데이터를 보고자 요청
      ex) 마케팅 부서에서 사용자들의 SNS를 통한 판매 데이터를 보고 싶다
    • 이때, 데이터 웨어하우스에서는 요청에 맞는 작은 데이터 집합을 제공
    • 그것을 데이터 마트(Data Mart)라고 함 
      - 소비자를 위해 창고에서 물건을 마트에 가져다 두는 것과 비슷
    • 해당 부서에서 사용하는 데이터 베이스와는 다르게, 과거 데이터를 포함해, 분석과 보고를 목적으로 함 
    • 부서 중심적 & 주제 중심적 
      - 데이터 마트는 특정 부서나 특정 주제에 맞춰서 설계됨 
      - 항상 준비된 것이 아니라 주제에 맞는 부서의 요청이 있을 때 만들어 짐
    • 데이터 집중도 ↑
      - 관련 있는 데이터만 집중적으로 포함하고 있음 
      - 사용자 그룹이 필요로 하는 정보를 빠르고 쉽게 확인 가능 
    • 효율적 운영 및 사용자 친화성 
      - 큰 데이터 웨어하우스 시스템의 일부로 존재 
      - 집중도 있는 데이터의 최적화된 집합 
      - 필요한 데이터에 대한 간단한 쿼리와 간단한 분석 진행 가능 
반응형

'데이터분석' 카테고리의 다른 글

66-(1). A/B test  (4) 2024.03.05
65. 추천 시스템, 컨텐츠 기반 필터링  (0) 2024.02.28
63. NLP, 자연어 처리  (1) 2024.02.27
62. 임베딩, 감정분석  (0) 2024.02.26
61. Text, Data 마이닝  (0) 2024.02.19