데이터분석

10. 결측치란?

장수우 2023. 12. 1. 17:00
학습주제
  • 결측치란 무엇인가
주요 메모 사항 소개
  • 결측치 : 0이 아닌 값
    - 사용하는 툴마다 표기가 다를 수 있다.
    - NA : Not Available
    - NaN : Not a Number
    - NULL

  • 결측치가 발생하는 이유
    - 값을 입력하지 않았다.
    - 설문조사 특정 질문에 응답하지 않았다.
    - 데이터의 오류가 있다.

  • 결측치가 미치는 영향
    - 데이터의 손실을 불러온다
    - 결측치 대체에 따라 데이터의 편향이 생길 수 있다.
    - 처리에 따라 분석 결과가 매우 달라질 수 있다.
  • 대체하는 방법
    1. 평균으로 대체하기
      - 변수의 결측값을 평균값으로 대체한다. ( 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리)
      - 정보의 손실은 줄어드나, 결측치에 대한 불확실성을 고려하진 못한다.
    2. 완전제거하기
      - 결측치가 포함된 값을 분석 대상에서 제거한다.
      - 분석에서 편향이 발생할 가능성이 적다.
      - 정보의 손실 및 검정력 약화 문제 야기 가능성이 존재한다.
    3. 회기 대체법
      - 회귀 방적식을 통해 결측값을 예측값으로 대체하는 방법이다.
      - 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀한다.

 

공부하면서 어려웠던 내용

 

반응형