데이터분석

3. 머신러닝 기초

장수우 2023. 11. 22. 18:16

 

학습주제
  • 데이터 기반 제품 개선(Product Science)이란?
  • 머신 러닝이란?
  • ML 모델 개발시 고려할 점
  • MLOps란?
  • 머신 러닝 사용시 고려할 점
  • 실습: 지표 정의하고 차트 만들어보기
주요 메모 사항 소개
  • 머신 러닝
    - 배움이 가능한 기계의 개발 - Arthur Samuel
      (‘A field of study that gives computers the ability to learn without being explicitly programmed’)
       1. 결국 데이터의 패턴을 보고 흉내내는 방식
       2. 컴퓨터가 학습할 수 있더록 하는 알고리즘과 기술을 개발하는 분야
       3. 딥 러닝은 이 중의 일부
       4. AI는 머신러닝을 포괄하는 개념

  • 머신 러닝 모델
    - 특정 방식의 예측을 해주는 블랙박스
    - 선택한 머신 러닝알고리즘에 따라 내부가 많이 달라짐
    - 입력 데이터를 주면 데이터 기반으로 예측 (Supervised ML)

  • 머신 러닝의 종류
    1. 지도 기계 학습 (Supervised ML) : 명시적 예제(트레이닝 셋)을 통해 학습 → 정답이 존재한다
      - 분류 지도 학습 : 이진 분류(Binary) / 다중 분류 (Multi-class)
      - 회귀 지도 학습
    2. 비지도 기계 학습 (Unsupervised Machine Learning)
      - 클러스터링 혹은 뉴스 그룹핑처럼 주어진 데이터를 몇 개의 그룹으로 분리 (GPT 등 모델언어 훈련 포함)
    3. 강화 학습 (Reinforcement Learning)
      - 알파고 / 자율주행
  • 지도 기계 학습

지도 기계 학습 시각화 자료 입니다.

 

  • 비지도 기계 학습

(Seoul) (is) (the) (capital) (of) ( korea) 토큰이 있고 ["Seoul is the" , "capital"], ["the capital of" , "korea"] 이런식으로 context window 토큰 예측훈련을 하며 Context window의 크기가 모델의 메모리를 결정

 

  • 머신 러닝 모델링의 예시
    1. 개인화된 추천 엔진
      - 마케터들이 규칙 기반으로 추천 → 머신 러닝 기반으로 전환
    2. 사기 결제 감지
      - 실제 사례 수집(카드 회사와 협업) → 이상값 탐지 실행 이후 사람에게 검토 요청 (휴먼 인더 루프)
      - 몇 가지 패턴이 나타난다.
    3. 환자 이상 징후 예측
      - 원격 환자 모니터링에서 많이 사용하며 환자의 병원 입원이나 응급실 방문을 예방하는 형태
    4. 농업용 자율 트랙터
      - 밭을 탐색하고 사람보다 더 효율적으로 심기 및 수확과 같은 작업을 수행
    5. 의료 이미지 분석
      - 딥 러닝 알고리즘이 MRI와 엑스레이 이미지 분석
         (오픈소스 VoxelMorph : https://github.com/voxelmorph/voxelmorph)
      - 초음파 사진 기반의 심장병 진단 기술

  • Data Drift
    - 시간이 지나면서 훈련에 사용된 데이터와 실제 데이터가 다르게 변하는 것
    - 주기적으로 ML 모델을 다시 빌딩 해주는 일이 필요하다
  • DevOps (Deliver software faster and more reliably in automated fashion)
    - 개발자가 만든 코드를 시스템에 반영하는 프로세스 (CI / CD)
    - 컨테이너 기술, 클라우드, 코딩실력
  • MLOps (Deliver ML models faster and more reliably in automated fashion)
    - 모델을 계속적으로 빌딩, 배포, 성능모니터링한다
    - 모델 서빙 환경과 모델의 성능 저하를 모니터링 한다
    - Machine Learning, DevOps, Data Engineering 을 전부 알아야 할 수 있다.
  • CI (Continuous Integration)
    - 코드 변경 사항을 중앙 저장소에 병합
    - 빌드 및 테스트 자동화
  • CD (Continuous Delivery of Deployment)
    - 중앙 저장소에 있는 빌드(패키지)를 운영 환경에 직접 구축

  • 데이터 윤리
    - Trustworthy AI (EU의 관련법규 / 감독, 안전성, 투명성, 공정성, 책임소재 등등)
    (https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI(2019)640163_EN.pdf)
    - HIPAA (Health Insurance Portability and Accountability Act / 개인식별 할 수 있는 대략 18개의 정보 보호)
    - GDPR / CCPA ( EU / 미국 캘리포니아 주의 온라인 개인정보 보호 법률 및 데이터 암호화)
     
  •  주의할 점
    - 데이터의 양도 중요하지만 품질도 중요하다 (Garbage In Garbage Out / 미국 EMR)
    - 어떤 결과가(내부동작) 나왔는지 설명이 가능해야한다.
    - 알고리즘 자체에 인종등 특정 편향성이 있는지 확인한다.
    - 잘못된 개인정보 보존으로 인한 페널티
    - 집단 이기주의
    - 데이터로 인한 왜곡과 그로 인한 AI윤리 문제 발생
    - 데이터 권리
    - 데이터로 인한 왜곡 발생

  •  ML 모델 개발 시 고려할 점 / 포인트
    - 실제 프로덕션 환경을 고려한 개발 모델 선정 ( R로 개발된 모델은 바로 프로덕션 론치가 불가능)
    - 모델 개발부터 최종 론치까지 책임질 사람이 필요
    - 엔지니어들과의 소통
    - 머신러닝 전반 개발 / 배포 프레임웍 등장 ( AWS SageMaker, Google Cloud, Azure, ...)
    - 모델 개발하고 끝이 아닌 시작 (점진적 개선이 매우 중요)
    - 피드백 루프가 필요하다
AI 가 직업을 대체한다기 보단 어시스트 같이 될 확률이 높고,
이를 적용하여 업무를 변화시키는 자세가 중요하다고 생각합니


 

Simple ML for Sheets - Google Workspace Marketplace

리뷰, 프로필 이름, 사진이 Google 서비스에 공개적으로 표시됩니다. 리뷰는 Google Workspace Marketplace 댓글 가이드라인 및 리뷰 정책을 준수해야 합니다. 자세히 알아보기

workspace.google.com

      - 설치가 완료 되었다면 https://simplemlforsheets.com/tutorial.html 이곳에서 예제 파일을 다운받을 수 있습니다.
      - 튜토리얼도 잘 나와있기에 따로 실행사진은 첨부하지 않겠습니다.
      - 중요한 점은 확장 프로그램에 들어가서 simple ML for sheet  → start  → 우측에 Predict 입니다.

공부하며 어려웠던 내용
  • 데이터의 확증 편향과 분산의 개념이 모자라서 추가적으로 공부하여 상충관계라는 점을 알게 되었습니다.
  • 비 지도 기계학습 부분에서 시간이 걸렸습니다.
반응형

'데이터분석' 카테고리의 다른 글

6. 공공데이터 포털 소개  (0) 2023.11.27
5. 개인정보 보호  (2) 2023.11.24
4. Gen AI  (1) 2023.11.23
2. 지표(KPI)  (4) 2023.11.21
1. 데이터란?  (0) 2023.11.20