학습 주제
- A/B Test
주요 학습 내용
-
- A/B 테스트 트래픽 크기 비교
- 가설 설정
- A/B 테스트 성공실패 지표를 비교하기 전에 제일 먼저 해야하는 일은 트래픽이 양쪽에 우리가 원하는 형태로
나눠졌는지부터 점검하는 것! - AB 테스트 사용자 크기를 통계적으로 비교해보자
- 50:50으로 나눈 테스트라면 이는 P(A) = P(B) 혹은 P(B) = 0.5가 귀무가설(H0)이 됨
- 어떻게 비교하나?
- CLT에 따르면 P(B)-0.5가 정규 분포를 따르게 됨
- proportion z-test (혹은 one-sample t-test)로 유의수준(p-value)을 계산
- A/B 테스트 성공실패 지표를 비교하기 전에 제일 먼저 해야하는 일은 트래픽이 양쪽에 우리가 원하는 형태로
- 비율 비교: Proportion z-test 공식
- 하나의 모집단에서 N개의 샘플을 통해서 나온 특정 이벤트의 확률의 평균이 P인 경우
- 이게 P`라는 확률과 통계적으로 이야기할 때 다른지 아니면 같은지 z-score를 계산하는 공식
- Z-score
p^1p^1 과 p^2p^2 는 두 그룹의 표본 비율, p1n1 과 p2n2 는 각 그룹의 표본 크기입니다. - Proportion z-test의 계산결과는 결국 z-score
- Bucket 크기 비교에 z-test 적용해보기
- 예를 들어 P가 테스트 사용자의 비율이고 N이 테스트에 속한 전체 사용자의 수 (A와 B 포함)라고 하자
- (95% 신뢰도라면) z-score가 1.96보다 크거나 -1.96보다 작으면 P는 95%
- 신뢰도로 봤을 때 50%가 아니라고 할 수 있음 (발생하기 힘든 일이 발생했다고 할 수 있음)
- 이 경우 귀무가설(H0)을 Reject함 -> 테스트 트래픽은 50%가 아님 혹은 컨트롤 트래픽과 다름
- T-test(T-검정)
- T-검정은 데이터 표본을 기준으로 한 두 그룹의 평균 간 차이의 유의성이 있는지 여부를 판단하는 데
사용되는 통계량 방법 - T-검정은 분산(표준 편차)을 알 수 없는 경우입니다
- One-sample t-test와 Two-sample t-test가 존재
- Bucket 크기 비교는 전자 (혹은 z-test)
- Impression/click/purchase/amount는 후자에 속함
- https://www.statsdirect.co.uk/help/parametric_methods/utt.htm
- T-검정은 데이터 표본을 기준으로 한 두 그룹의 평균 간 차이의 유의성이 있는지 여부를 판단하는 데
- A/A Test를 통한 검증 방식 (1)
- 기본적으로는 A/B 테스트 분석과 동일
- 하지만 차이점은
- 기존 서비스 방문 트래픽을 랜덤하게 추출(보통 날짜 기간 기반)
- 앞서 구현한 Bucketing 로직을 적용해서 트래픽을 A와 A`로 분리
- 그리고 기타 비교 지표들을 계산하고 그 값들이 동일함을 컨펌
- t-test와 z-test의 차이점은 무엇인가요?
- z-distribution의 경우, 평균은 0이고 표준편차가 1이 됨
- 보통 온라인 AB 테스트에서는 최소 1000명의 사용자가 필요하며 이 정도 규모에서는
t-score가 z-score와 같다고 가정함
반응형
'데이터분석' 카테고리의 다른 글
로그변환(Log Transformation) (0) | 2024.10.16 |
---|---|
68. 가상 데이터 기반 A/B 테스트 분석 (0) | 2024.04.09 |
67-(2). A/B Test (0) | 2024.04.09 |
66-(1). A/B test (4) | 2024.03.05 |
65. 추천 시스템, 컨텐츠 기반 필터링 (0) | 2024.02.28 |