데이터분석

35. 데이터 분석 프로세스

장수우 2024. 1. 27. 00:26
학습 주제
  • Outro
주요 학습 내용
  • 데이터 분석 프로세스
    • 문제 정의 - 데이터 수집 - 데이터 전처리 - 데이터 분석 - 리포팅 피드백
  • 정규화와 데이터 스케일링
    • 정규화(normalization): min-max normalization, Z-score normalization
    • 스케일링: Log / power / exponential scaling
  • 통계적 분석
    • 확률의 성질
    • 변수, 확률변수, 확률 분포, 확률 함수의 정의
    • 통계적 분석은 모수 추정의 과정
    • 기댓값과 분산의 성질
    • 독립의 정의(공분산), 결합확률분포
    • 이산 확률분포: Bernoulli, Binomial, Poisson
    • 연속 확률분포: Uniform, Normal(Gaussian), Standard normal(Z-score)
    • Unbiased estimate(표본 분산)
    • 중심극한정리
    • Pandas Dataframe을 이용한 기술통계값
      1. 통계적 추정의 정의
      2. 점 추정(MLE)
      3. 구간 추정(t분포: 모평균 구간 추정, 카이 제곱 분포: 모분산 구간 추정)
      4. 가설검정의 정의 및 오류(type 1 error, 유의수준)
      5. 모평균 차에 대한 가설 검정(Z-score, t-score), 모분산 비에 대한 가설검정(F분포)
      6. ANOVA(SSB, SSE, SST, F분포)
  • 데이터 시각화
    • Matplotlib label, tick, legend, marker, color등 기본 문법
      1. subplots, axes 활용
        - plt.scatter, plt.bar, plt.hist, plt.boxplot, plt.violinplot
      2. Seaborn relplot: 2개 이상의 변수 간의 관계
        scatter plot, line plot
      3. Seaborn displot: 1개 이상의 변수 값의 분포
        hist plot, kde, heatmap, contour plot
      4. Seaborn catplot: 범주형 데이터의 분포
        strip plot/swarm plot, box plot/violin plot, bar plot/point plot
  • 회귀 분석/데이터 모델링
    • Regression / Classification task
      1. 데이터 모델링에서 MLE, MAP의 의미
      2. Linear regression의 cost function, Ordinary Least Squares, Gradient descent
      3. Overfitting, regularization(Ridge, Lasso)
      4. Logistic regression, SVM
      5. Random forest, decision tree
      6. Naive bayes, bayes theorem
      7. Regression evaluation: MSE, MAE, R-square
      8. Classification evaluation: Precision/recall(False positive란?), F1 score
      9. Feature analysis: .coef, .feature_importances_, pearsonr, spearmanr
공부하면서 어려웠던 점
  • 이렇게 많은 것을 배웠고 적용해보려면 공을 많이 들여야 할 것 같다 상황에 맞게 사용하면 좋겠다.
반응형

'데이터분석' 카테고리의 다른 글

42. Snowflake  (1) 2024.01.29
41. 데이터 웨어하우스, 데이터 파이프라인  (0) 2024.01.29
34. 회귀분석과 데이터모델링  (1) 2024.01.27
33-(3). seaborn  (1) 2024.01.15
33-(2). Matplotlib  (1) 2024.01.15