학습주제
- 데이터 기반 제품 개선(Product Science)이란?
- 머신 러닝이란?
- ML 모델 개발시 고려할 점
- MLOps란?
- 머신 러닝 사용시 고려할 점
- 실습: 지표 정의하고 차트 만들어보기
주요 메모 사항 소개
- 머신 러닝
- 배움이 가능한 기계의 개발 - Arthur Samuel
(‘A field of study that gives computers the ability to learn without being explicitly programmed’)
1. 결국 데이터의 패턴을 보고 흉내내는 방식
2. 컴퓨터가 학습할 수 있더록 하는 알고리즘과 기술을 개발하는 분야
3. 딥 러닝은 이 중의 일부
4. AI는 머신러닝을 포괄하는 개념 - 머신 러닝 모델
- 특정 방식의 예측을 해주는 블랙박스
- 선택한 머신 러닝알고리즘에 따라 내부가 많이 달라짐
- 입력 데이터를 주면 데이터 기반으로 예측 (Supervised ML) - 머신 러닝의 종류
- 지도 기계 학습 (Supervised ML) : 명시적 예제(트레이닝 셋)을 통해 학습 → 정답이 존재한다
- 분류 지도 학습 : 이진 분류(Binary) / 다중 분류 (Multi-class)
- 회귀 지도 학습 - 비지도 기계 학습 (Unsupervised Machine Learning)
- 클러스터링 혹은 뉴스 그룹핑처럼 주어진 데이터를 몇 개의 그룹으로 분리 (GPT 등 모델언어 훈련 포함) - 강화 학습 (Reinforcement Learning)
- 알파고 / 자율주행
- 지도 기계 학습 (Supervised ML) : 명시적 예제(트레이닝 셋)을 통해 학습 → 정답이 존재한다
- 지도 기계 학습
- 비지도 기계 학습
- 머신 러닝 모델링의 예시
- 개인화된 추천 엔진
- 마케터들이 규칙 기반으로 추천 → 머신 러닝 기반으로 전환 - 사기 결제 감지
- 실제 사례 수집(카드 회사와 협업) → 이상값 탐지 실행 이후 사람에게 검토 요청 (휴먼 인더 루프)
- 몇 가지 패턴이 나타난다. - 환자 이상 징후 예측
- 원격 환자 모니터링에서 많이 사용하며 환자의 병원 입원이나 응급실 방문을 예방하는 형태 - 농업용 자율 트랙터
- 밭을 탐색하고 사람보다 더 효율적으로 심기 및 수확과 같은 작업을 수행 - 의료 이미지 분석
- 딥 러닝 알고리즘이 MRI와 엑스레이 이미지 분석
(오픈소스 VoxelMorph : https://github.com/voxelmorph/voxelmorph)
- 초음파 사진 기반의 심장병 진단 기술
- 개인화된 추천 엔진
- Data Drift
- 시간이 지나면서 훈련에 사용된 데이터와 실제 데이터가 다르게 변하는 것
- 주기적으로 ML 모델을 다시 빌딩 해주는 일이 필요하다 - DevOps (Deliver software faster and more reliably in automated fashion)
- 개발자가 만든 코드를 시스템에 반영하는 프로세스 (CI / CD)
- 컨테이너 기술, 클라우드, 코딩실력 - MLOps (Deliver ML models faster and more reliably in automated fashion)
- 모델을 계속적으로 빌딩, 배포, 성능모니터링한다
- 모델 서빙 환경과 모델의 성능 저하를 모니터링 한다
- Machine Learning, DevOps, Data Engineering 을 전부 알아야 할 수 있다. - CI (Continuous Integration)
- 코드 변경 사항을 중앙 저장소에 병합
- 빌드 및 테스트 자동화 - CD (Continuous Delivery of Deployment)
- 중앙 저장소에 있는 빌드(패키지)를 운영 환경에 직접 구축
- 데이터 윤리
- Trustworthy AI (EU의 관련법규 / 감독, 안전성, 투명성, 공정성, 책임소재 등등)
(https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI(2019)640163_EN.pdf)
- HIPAA (Health Insurance Portability and Accountability Act / 개인식별 할 수 있는 대략 18개의 정보 보호)
- GDPR / CCPA ( EU / 미국 캘리포니아 주의 온라인 개인정보 보호 법률 및 데이터 암호화)
- 주의할 점
- 데이터의 양도 중요하지만 품질도 중요하다 (Garbage In Garbage Out / 미국 EMR)
- 어떤 결과가(내부동작) 나왔는지 설명이 가능해야한다.
- 알고리즘 자체에 인종등 특정 편향성이 있는지 확인한다.
- 잘못된 개인정보 보존으로 인한 페널티
- 집단 이기주의
- 데이터로 인한 왜곡과 그로 인한 AI윤리 문제 발생
- 데이터 권리
- 데이터로 인한 왜곡 발생 - ML 모델 개발 시 고려할 점 / 포인트
- 실제 프로덕션 환경을 고려한 개발 모델 선정 ( R로 개발된 모델은 바로 프로덕션 론치가 불가능)
- 모델 개발부터 최종 론치까지 책임질 사람이 필요
- 엔지니어들과의 소통
- 머신러닝 전반 개발 / 배포 프레임웍 등장 ( AWS SageMaker, Google Cloud, Azure, ...)
- 모델 개발하고 끝이 아닌 시작 (점진적 개선이 매우 중요)
- 피드백 루프가 필요하다
AI 가 직업을 대체한다기 보단 어시스트 같이 될 확률이 높고,
이를 적용하여 업무를 변화시키는 자세가 중요하다고 생각합니
- 간단한 머신 러닝 모델을 실습해보겠습니다.
- 구글 스프레드시트의 무료 확장판입니다. 훈련 데이터가 있어 간단한 모델을 만들 수 있습니다.
- https://workspace.google.com/marketplace/app/simple_ml_for_sheets/685936641092
Simple ML for Sheets - Google Workspace Marketplace
리뷰, 프로필 이름, 사진이 Google 서비스에 공개적으로 표시됩니다. 리뷰는 Google Workspace Marketplace 댓글 가이드라인 및 리뷰 정책을 준수해야 합니다. 자세히 알아보기
workspace.google.com
- 설치가 완료 되었다면 https://simplemlforsheets.com/tutorial.html 이곳에서 예제 파일을 다운받을 수 있습니다.
- 튜토리얼도 잘 나와있기에 따로 실행사진은 첨부하지 않겠습니다.
- 중요한 점은 확장 프로그램에 들어가서 simple ML for sheet → start → 우측에 Predict 입니다.
공부하며 어려웠던 내용
- 데이터의 확증 편향과 분산의 개념이 모자라서 추가적으로 공부하여 상충관계라는 점을 알게 되었습니다.
- 비 지도 기계학습 부분에서 시간이 걸렸습니다.
반응형
'데이터분석' 카테고리의 다른 글
6. 공공데이터 포털 소개 (0) | 2023.11.27 |
---|---|
5. 개인정보 보호 (2) | 2023.11.24 |
4. Gen AI (1) | 2023.11.23 |
2. 지표(KPI) (4) | 2023.11.21 |
1. 데이터란? (0) | 2023.11.20 |