전체 글 147

Growth Hacking

그로스 해킹을 읽고 정리하는 시간을 가져보겠습니다.그로스 해킹은 제품 시장 궁합에서부터 시작그냥 개발하는 것이 아닌 적절한 투입과 규칙, 기준, 피드백을 통해 개발에 영향을 줄 수 있다.그로스 해커는 반복, 심사사숙고와 사업의 모든 양상에 대해 분석한 결과를 통해 도울 수 있다.즉 제품시장 궁합은 데이터와 정보로 뒷바침어떻게 PMF(제품시장궁합)을 얻을 수 있는가?가설의 공표를 적어보는 것이 도움이 될 수 있다.개발하고 있느 제품에 대한 FAQ를 적어보는 것도 도움사용 설명서를 적어보는 것도 도움 개념, 이용 방법, 참고 사항 등게임의 법칙이 바뀜 마케팅을 먼저하는 것이 아닌 제품 시장 궁합을 먼저 만드는 것에 좌우고객에게 질문하는 것 역시 필요소크라테스 문답법도 도움나만의 그로스 해킹 찾기그로스 해커의..

2024.12.23

연관분석

연관 분석은 데이터 내 항목 간의 규칙을 찾는 데 주로 사용됩니다.이러한 규칙은 "A를 구매한 고객은 B도 구매할 가능성이 높다"와 같은 형태로 표현됩니다. 연관 규칙은 지지도(Support), 신뢰도(Confidence), 향상도(Lift)와 같은 지표를 통해 평가합니다. 지지도(Support):규칙에서 특정 항목 집합이 데이터 내에서 얼마나 자주 등장하는지를 나타냅니다.{A, B}라는 항목 집합의 지지도는 전체 거래 중에서 {A, B}가 포함된 거래 비율입니다.계산식: Support = P(A ∩ B)​신뢰도(Confidence):조건부 확률로, 항목 A가 포함된 거래 중에서 항목 B도 포함된 거래의 비율을 나타냅니다.예를 들어, A를 구매한 고객이 B도 구매할 확률을 의미합니다.계산식: Confid..

데이터분석 2024.11.10

군집 분석

1. K-평균 (K-Means)가장 널리 사용되는 군집화 알고리즘 중 하나로, 사전에 지정한 K개의 클러스터 중심을 기반으로 데이터를 군집화합니다. 각 데이터 포인트는 가장 가까운 중심(centroid)에 할당되며, 중심이 점차적으로 최적의 위치로 이동하면서 클러스터가 형성됩니다.동작 과정:초기 K개의 중심을 무작위로 설정.각 데이터 포인트를 가장 가까운 중심에 할당하여 K개의 군집을 형성.각 군집의 평균으로 중심을 업데이트.중심이 수렴할 때까지(변하지 않을 때까지) 반복.장점과 단점:장점: 계산 속도가 빠르고, 대규모 데이터에 적합.단점: 초기 중심값에 민감하며, 구형 클러스터만 잘 분류 가능.from sklearn.cluster import KMeansimport matplotlib.pyplot as..

데이터분석 2024.11.10

앙상블 기법

1. 배깅 (Bagging)배깅(Bootstrap Aggregating)은 데이터를 복원 추출로 여러 번 샘플링하여 각기 다른 서브셋으로 학습을 진행합니다. 각 모델은 독립적으로 학습하며, 최종 예측은 다수결 투표(분류) 또는 평균(회귀)을 통해 결합합니다. 동작 원리데이터 샘플링: 원본 데이터에서 복원 추출로 서브셋을 여러 개 생성합니다.모델 학습: 각 서브셋으로 개별 모델을 학습시킵니다. 배깅에서는 주로 의사결정 트리와 같이 편향은 낮지만 분산이 높은 모델을 사용합니다.예측 결합: 모든 모델의 예측을 결합하여 최종 결과를 도출합니다. 분류 문제에서는 다수결 투표 방식으로, 회귀 문제에서는 평균을 사용합니다. 랜덤 포레스트 (Random Forest)랜덤 포레스트는 배깅을 기반으로 한 대표적인 앙상블 ..

데이터분석 2024.11.10

분류분석

분류 분석의 주요 목적예측: 주어진 데이터를 통해 새로운 데이터가 속할 범주를 예측하는 것.(연속형 속성)분류 : 범주형 속성패턴 인식: 특정 클래스에 속하는 데이터의 특징을 식별하고, 분류 규칙을 이해하는 것.의사결정 지원: 고객 분류, 질병 진단, 사기 탐지 등의 비즈니스 의사결정에 활용.선형회귀 분석종속 변수 : 연속형 변수계수 추정법 : 최소제곱법모형 검정 : F-검정, t-검정로지스틱 회귀분석종속 변수 : 0, 1계수 추정법 : 최대우도추정법모형 검정 : 카이제곱 검정1.  로지스틱 회귀 (Logistic Regression)로지스틱 회귀는 이진 분류 문제에서 많이 사용되는 방법으로, 종속 변수가 특정 범주에 속할 확률을 예측합니다. 데이터가 선형적으로 분리 가능한 경우에 적합합니다.from s..

데이터분석 2024.11.09

오분류 추정 및 확인

오분류에 대한 추정치는 모델이 잘못된 분류를 얼마나 많이 하는지 측정하는 지표입니다.분류 모델의 성능을 평가할 때 오분류율(misclassification rate) 또는 오차 행렬(confusion matrix)을 사용하여 각 클래스에 대한 예측 오류를 분석할 수 있습니다. 오분류 추정치는 모델이 얼마나 정확하게 분류하는지 또는 잘못 분류하는지를 이해하는 데 중요한 역할을 합니다.오분류에 대한 추정치오분류율은 전체 예측 중 잘못된 예측의 비율을 의미합니다. 분류의 정확도를 측정할 때, 정확도(accuracy)와 오분류율을 함께 살펴보는 것이 일반적입니다.오분류율 계산: 1 - Accuracy = (FN + FP) / (TN + TP + FN + FP)​정확도(정분류율) : 정확도= (TN + TP) /..

데이터분석 2024.11.09

데이터 분할 시 양이 충분하지 않은 경우

1. 홀드아웃 방법홀드아웃 방법은 데이터를 두 개 또는 세 개의 세트로 나누어 모델의 성능을 검증합니다:훈련 세트: 모델을 학습하는 데 사용.테스트 세트: 모델의 성능을 평가하는 데 사용.검증 세트 (optional): 하이퍼파라미터 튜닝을 위한 추가 데이터 세트.장점:간단하고 빠름:홀드아웃 방법은 데이터를 나누고 한 번의 훈련 및 테스트만 수행하므로 빠르게 검증할 수 있습니다.대규모 데이터셋에 적합:데이터 양이 많으면 한 번의 분할로도 신뢰성 있는 성능 평가가 가능합니다.단점:불안정성:데이터 분할에 따라 성능이 달라질 수 있습니다. 특히 데이터 양이 적을 경우, 테스트 세트가 결과에 큰 영향을 미치게 됩니다.과적합 가능성:테스트 세트에 맞춘 과적합이 발생할 수 있으며, 한 번의 평가로는 모델 성능이 불..

데이터분석 2024.11.08

비모수 검정법

1. 부호 검정 (Sign Test)부호 검정은 한 집단의 중앙값이 특정 값과 동일한지 또는 두 집단의 중앙값 차이가 유의미한지를 검정하는 비모수 방법중앙값에 기초하여, 각 데이터가 특정 값보다 큰지, 작은지를 확인합니다. ## 새로운 교육 프로그램이 학생들의 점수를 올렸는지 검정하는 경우, 부호 검정을 사용from scipy.stats import binom# 기존 점수와 새로운 점수before = [70, 65, 80, 75, 72]after = [75, 67, 82, 77, 73]# 차이 계산diff = [a - b for a, b in zip(after, before)]# 부호 검정 수행positive_count = sum(1 for d in diff if d > 0)n = len(diff)p_v..

데이터분석 2024.11.06

가설검정에 사용하는 분포 선택 및 통계적 검정법

1. 정규 분포 (Normal Distribution)와 Z-검정, t-검정정규 분포는 데이터를 분석할 때 가장 널리 쓰이며, Z-검정과 t-검정 같은 기법에 사용됩니다.Z-검정:표본 크기가 크고 모집단의 분산이 알려진 경우, Z-검정을 통해 두 평균을 비교합니다.표본 평균이 정규분포를 따르는 가정하에 정규분포의 Z-분포를 사용합니다.t-검정:표본 크기가 작거나 모집단의 분산을 모를 때 t-분포를 사용하여 평균 차이를 검정합니다. 주로 두 집단 간 평균 차이 검정(독립표본 t-검정)이나 같은 집단에서의 평균 차이(대응표본 t-검정)에 사용됩니다.ex) 특정 제품에 대한 고객 만족도가 이전과 달라졌는지 확인하기 위해 t-검정을 통해 두 집단의 평균 만족도를 비교from scipy.stats import n..

통계 2024.11.06

데이터 스케일링 및 모델 특성 선택법

데이터 스케일링은 변수들이 서로 다른 범위를 가질 때 분석이나 모델 성능에 영향을 줄 수 있으므로,중요한 전처리 과정입니다. 거리 기반 알고리즘이나 신경망 모델에서는 스케일링이 큰 효과를 발휘합니다.주로 세 가지 상황에서 많이 사용합니다.- 변수 간 크기 차이가 큰 경우데이터에 있는 변수들이 서로 다른 단위를 가지고 있을 때 스케일링을 적용하면 분석이 용이해집니다. 나이(10~80)와 연간 수입(수백만 원 단위)처럼 값의 범위가 크게 차이 나는 경우가 대표적입니다.- 거리 기반 알고리즘을 사용할 때K-최근접 이웃(KNN), K-평균 군집화(K-means)와 같은 거리 기반 알고리즘은 각 변수의 범위가 다르면 성능이저하될 수 있습니다. 스케일링을 통해 모든 변수의 범위를 동일하게 맞춰주는 것이 중요합니다...

데이터분석 2024.11.06