학습 주제
- Outro
주요 학습 내용
- 데이터 분석 프로세스
- 문제 정의 - 데이터 수집 - 데이터 전처리 - 데이터 분석 - 리포팅 피드백
- 정규화와 데이터 스케일링
- 정규화(normalization): min-max normalization, Z-score normalization
- 스케일링: Log / power / exponential scaling
- 통계적 분석
- 확률의 성질
- 변수, 확률변수, 확률 분포, 확률 함수의 정의
- 통계적 분석은 모수 추정의 과정
- 기댓값과 분산의 성질
- 독립의 정의(공분산), 결합확률분포
- 이산 확률분포: Bernoulli, Binomial, Poisson
- 연속 확률분포: Uniform, Normal(Gaussian), Standard normal(Z-score)
- Unbiased estimate(표본 분산)
- 중심극한정리
- Pandas Dataframe을 이용한 기술통계값
- 통계적 추정의 정의
- 점 추정(MLE)
- 구간 추정(t분포: 모평균 구간 추정, 카이 제곱 분포: 모분산 구간 추정)
- 가설검정의 정의 및 오류(type 1 error, 유의수준)
- 모평균 차에 대한 가설 검정(Z-score, t-score), 모분산 비에 대한 가설검정(F분포)
- ANOVA(SSB, SSE, SST, F분포)
- 데이터 시각화
- Matplotlib label, tick, legend, marker, color등 기본 문법
- subplots, axes 활용
- plt.scatter, plt.bar, plt.hist, plt.boxplot, plt.violinplot - Seaborn relplot: 2개 이상의 변수 간의 관계
scatter plot, line plot - Seaborn displot: 1개 이상의 변수 값의 분포
hist plot, kde, heatmap, contour plot - Seaborn catplot: 범주형 데이터의 분포
strip plot/swarm plot, box plot/violin plot, bar plot/point plot
- subplots, axes 활용
- Matplotlib label, tick, legend, marker, color등 기본 문법
- 회귀 분석/데이터 모델링
- Regression / Classification task
- 데이터 모델링에서 MLE, MAP의 의미
- Linear regression의 cost function, Ordinary Least Squares, Gradient descent
- Overfitting, regularization(Ridge, Lasso)
- Logistic regression, SVM
- Random forest, decision tree
- Naive bayes, bayes theorem
- Regression evaluation: MSE, MAE, R-square
- Classification evaluation: Precision/recall(False positive란?), F1 score
- Feature analysis: .coef, .feature_importances_, pearsonr, spearmanr
- Regression / Classification task
공부하면서 어려웠던 점
- 이렇게 많은 것을 배웠고 적용해보려면 공을 많이 들여야 할 것 같다 상황에 맞게 사용하면 좋겠다.
반응형
'데이터분석' 카테고리의 다른 글
42. Snowflake (1) | 2024.01.29 |
---|---|
41. 데이터 웨어하우스, 데이터 파이프라인 (0) | 2024.01.29 |
34. 회귀분석과 데이터모델링 (1) | 2024.01.27 |
33-(3). seaborn (1) | 2024.01.15 |
33-(2). Matplotlib (1) | 2024.01.15 |