3. 머신러닝 기초

데이터분석

3. 머신러닝 기초

장수우 2023. 11. 22. 18:16

학습주제

데이터 기반 제품 개선(Product Science)이란?
머신 러닝이란?
ML 모델 개발시 고려할 점
MLOps란?
머신 러닝 사용시 고려할 점
실습: 지표 정의하고 차트 만들어보기

주요 메모 사항 소개

머신 러닝
- 배움이 가능한 기계의 개발 - Arthur Samuel
(‘A field of study that gives computers the ability to learn without being explicitly programmed’)
1. 결국 데이터의 패턴을 보고 흉내내는 방식
2. 컴퓨터가 학습할 수 있더록 하는 알고리즘과 기술을 개발하는 분야
3. 딥 러닝은 이 중의 일부
4. AI는 머신러닝을 포괄하는 개념
머신 러닝 모델
- 특정 방식의 예측을 해주는 블랙박스
- 선택한 머신 러닝알고리즘에 따라 내부가 많이 달라짐
- 입력 데이터를 주면 데이터 기반으로 예측 (Supervised ML)
머신 러닝의 종류
1. 지도 기계 학습 (Supervised ML) : 명시적 예제(트레이닝 셋)을 통해 학습 → 정답이 존재한다
  - 분류 지도 학습 : 이진 분류(Binary) / 다중 분류 (Multi-class)
  - 회귀 지도 학습
2. 비지도 기계 학습 (Unsupervised Machine Learning)
  - 클러스터링 혹은 뉴스 그룹핑처럼 주어진 데이터를 몇 개의 그룹으로 분리 (GPT 등 모델언어 훈련 포함)
3. 강화 학습 (Reinforcement Learning)
  - 알파고 / 자율주행
지도 기계 학습

비지도 기계 학습

(Seoul) (is) (the) (capital) (of) ( korea) 토큰이 있고 ["Seoul is the" , "capital"], ["the capital of" , "korea"] 이런식으로 context window 토큰 예측훈련을 하며 Context window의 크기가 모델의 메모리를 결정

머신 러닝 모델링의 예시
1. 개인화된 추천 엔진
  - 마케터들이 규칙 기반으로 추천 → 머신 러닝 기반으로 전환
2. 사기 결제 감지
  - 실제 사례 수집(카드 회사와 협업) → 이상값 탐지 실행 이후 사람에게 검토 요청 (휴먼 인더 루프)
  - 몇 가지 패턴이 나타난다.
3. 환자 이상 징후 예측
  - 원격 환자 모니터링에서 많이 사용하며 환자의 병원 입원이나 응급실 방문을 예방하는 형태
4. 농업용 자율 트랙터
  - 밭을 탐색하고 사람보다 더 효율적으로 심기 및 수확과 같은 작업을 수행
5. 의료 이미지 분석
  - 딥 러닝 알고리즘이 MRI와 엑스레이 이미지 분석
  (오픈소스 VoxelMorph : https://github.com/voxelmorph/voxelmorph)
  - 초음파 사진 기반의 심장병 진단 기술

Data Drift
- 시간이 지나면서 훈련에 사용된 데이터와 실제 데이터가 다르게 변하는 것
- 주기적으로 ML 모델을 다시 빌딩 해주는 일이 필요하다
DevOps (Deliver software faster and more reliably in automated fashion)
- 개발자가 만든 코드를 시스템에 반영하는 프로세스 (CI / CD)
- 컨테이너 기술, 클라우드, 코딩실력
MLOps (Deliver ML models faster and more reliably in automated fashion)
- 모델을 계속적으로 빌딩, 배포, 성능모니터링한다
- 모델 서빙 환경과 모델의 성능 저하를 모니터링 한다
- Machine Learning, DevOps, Data Engineering 을 전부 알아야 할 수 있다.
CI (Continuous Integration)
- 코드 변경 사항을 중앙 저장소에 병합
- 빌드 및 테스트 자동화
CD (Continuous Delivery of Deployment)
- 중앙 저장소에 있는 빌드(패키지)를 운영 환경에 직접 구축

데이터 윤리
- Trustworthy AI (EU의 관련법규 / 감독, 안전성, 투명성, 공정성, 책임소재 등등)
(https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI(2019)640163_EN.pdf)
- HIPAA (Health Insurance Portability and Accountability Act / 개인식별 할 수 있는 대략 18개의 정보 보호)
- GDPR / CCPA ( EU / 미국 캘리포니아 주의 온라인 개인정보 보호 법률 및 데이터 암호화)
주의할 점
- 데이터의 양도 중요하지만 품질도 중요하다 (Garbage In Garbage Out / 미국 EMR)
- 어떤 결과가(내부동작) 나왔는지 설명이 가능해야한다.
- 알고리즘 자체에 인종등 특정 편향성이 있는지 확인한다.
- 잘못된 개인정보 보존으로 인한 페널티
- 집단 이기주의
- 데이터로 인한 왜곡과 그로 인한 AI윤리 문제 발생
- 데이터 권리
- 데이터로 인한 왜곡 발생
ML 모델 개발 시 고려할 점 / 포인트
- 실제 프로덕션 환경을 고려한 개발 모델 선정 ( R로 개발된 모델은 바로 프로덕션 론치가 불가능)
- 모델 개발부터 최종 론치까지 책임질 사람이 필요
- 엔지니어들과의 소통
- 머신러닝 전반 개발 / 배포 프레임웍 등장 ( AWS SageMaker, Google Cloud, Azure, ...)
- 모델 개발하고 끝이 아닌 시작 (점진적 개선이 매우 중요)
- 피드백 루프가 필요하다

AI 가 직업을 대체한다기 보단 어시스트 같이 될 확률이 높고,
이를 적용하여 업무를 변화시키는 자세가 중요하다고 생각합니

간단한 머신 러닝 모델을 실습해보겠습니다.
- 구글 스프레드시트의 무료 확장판입니다. 훈련 데이터가 있어 간단한 모델을 만들 수 있습니다.
- https://workspace.google.com/marketplace/app/simple_ml_for_sheets/685936641092

Simple ML for Sheets - Google Workspace Marketplace

리뷰, 프로필 이름, 사진이 Google 서비스에 공개적으로 표시됩니다. 리뷰는 Google Workspace Marketplace 댓글 가이드라인 및 리뷰 정책을 준수해야 합니다. 자세히 알아보기

workspace.google.com

- 설치가 완료 되었다면 https://simplemlforsheets.com/tutorial.html 이곳에서 예제 파일을 다운받을 수 있습니다.
- 튜토리얼도 잘 나와있기에 따로 실행사진은 첨부하지 않겠습니다.
- 중요한 점은 확장 프로그램에 들어가서 simple ML for sheet → start → 우측에 Predict 입니다.

공부하며 어려웠던 내용

데이터의 확증 편향과 분산의 개념이 모자라서 추가적으로 공부하여 상충관계라는 점을 알게 되었습니다.
비 지도 기계학습 부분에서 시간이 걸렸습니다.

'데이터분석' 카테고리의 다른 글

6. 공공데이터 포털 소개 (0)	2023.11.27
5. 개인정보 보호 (2)	2023.11.24
4. Gen AI (1)	2023.11.23
2. 지표(KPI) (4)	2023.11.21
1. 데이터란? (0)	2023.11.20

현재글3. 머신러닝 기초

Soo 배움일지

Rag, 시각화, 그로스해커, A/B Test, 데이터분석, SQL, 티스토리챌린지, Jupyter_notebook, crewai, OpenAI, 오블완, ai agents, 그로스해킹, Tableau, GPT, 데브코스, 마케팅, fine-tuning, kaggle, matplotlib,

Today :
Yesterday :

Soo 배움일지