데이터분석
10. 결측치란?
장수우
2023. 12. 1. 17:00
학습주제
- 결측치란 무엇인가
주요 메모 사항 소개
- 결측치 : 0이 아닌 값
- 사용하는 툴마다 표기가 다를 수 있다.
- NA : Not Available
- NaN : Not a Number
- NULL - 결측치가 발생하는 이유
- 값을 입력하지 않았다.
- 설문조사 특정 질문에 응답하지 않았다.
- 데이터의 오류가 있다. - 결측치가 미치는 영향
- 데이터의 손실을 불러온다
- 결측치 대체에 따라 데이터의 편향이 생길 수 있다.
- 처리에 따라 분석 결과가 매우 달라질 수 있다. - 대체하는 방법
- 평균으로 대체하기
- 변수의 결측값을 평균값으로 대체한다. ( 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리)
- 정보의 손실은 줄어드나, 결측치에 대한 불확실성을 고려하진 못한다. - 완전제거하기
- 결측치가 포함된 값을 분석 대상에서 제거한다.
- 분석에서 편향이 발생할 가능성이 적다.
- 정보의 손실 및 검정력 약화 문제 야기 가능성이 존재한다. - 회기 대체법
- 회귀 방적식을 통해 결측값을 예측값으로 대체하는 방법이다.
- 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀한다.
- 평균으로 대체하기
공부하면서 어려웠던 내용
반응형