[코드스테이츠 PMB 9기] A / B 테스트
W5D4 학습목표
- A/B 테스트를 설계하는 과정에서 유의해야 하는 사항을 정리할 수 있다.
- P-value를 고려하여 A/B 테스트 결과의 유의미함을 판단할 수 있다.
개념 정리
-A/B 테스트
- p-value
이후 답변 가능한 질문
- 구성 절차에 따라 A/B 테스트 가설을 설계할 수 있는가?
- 적정 모수와 P-value를 설정해, A/B 테스트를 검증할 지표를 설정할 수 있는가?
A / B 테스트 구성 절차
A / B 테스트 구성 단계
1. A / B 테스트 셋팅
2. 테스트 대상자 A, B 두 그룹으로 분류
3. 두 가지 포맷의 테스트 (홈페이지, 기능 등) 자료 제작
4. 테스트 자료를 A, B 그룹에 각각 제공
5. 각 그룹이 어떻게 반응헸는지 데이터 분석 (지속시간, 전환율, 이탈률 등)
6. 통계적 유의성 (P-value) 계산 (0.05 미만에 해당하는지)
7. 결과가 우수한 내용을 실전에 반영
A / B 테스트 구성 요소
1. 가설 : ~하면 ~일 것이다.
2. 목표 : A/B 테스트의 목표
3. 기간 : A/B 테스트의 기간
4. 대상 : A/B 테스트를 진행할 대상 고객층(사용자 세분화 / 코호트 분석)
5. 측정 지표 : 전환율, 이탈율 등 대표적으로 측정할 지표 설정
6. 결과 : P-value와 같은 요소를 통해 통계적 유의성 계산(실제로 이 통계가 유의미한가?
7. 결론 : 결과가 우수한 내용(측정 지표가 높은 안)을 실제로 적용
ex)
넷플릭스
-넷플릭스 A/B 테스트는 '비회원도 컨텐츠를 보여주면 가입율이 늘 것이다' 라는 디자인팀의 가설에 의해 진행되었다. 그러나, 디자인팀의 가설과는 다르게, 가입 시 혜택을 주는 기존 화면이 가입율에 더 긍정적인 영향을 미쳤습니다.
만약, 디자인팀의 가설만을 믿고 서비스의 형태를 바로 변경했더라면, 사용자 가입 수에 부정적인 영향을 미쳤을 겁니다. A/B 테스트는 실제로 서비스에 유효할 수 있는 가설을 실험하고, 간단하게 이전 버전으로 롤백하여 리스크를 최소화할 수 있습니다.
뷰저블
-추가적으로, 실제 포그리트라는 회사의 '뷰저블'툴을 통해 진행한 A/B 테스트 사례가 있다. 가설은 뷰저블 메인 페이지 내 브런치 콘텐츠를 1개에서 3개로 늘리면 Engagement가 증가할 것이다. 목표는 전문가가 만드는 서비스라는 점을 인지시키고, 하단까지 콘텐츠를 골고루 소비하도록 유도한다. 기간은 2017년 3월 22일 ~ 3월 30일 목요일 (9일간 실시) 대상은 최근 1달 이상 방문하지 않은 기존 고객 A 집단 50명 (업데이트 뉴스레터를 통해 방문 유도) 측정 지표는 평균 체류시간 및 사용자 도달률 등 전체적인 고객 Engagement 증가 확인했다. 결과는 평균 체류시간과 하단 콘텐츠에 대한 사용자 도달률 등 전체적인 고객 Engagement 증가 확인했다. 결론은 메인 페이지 내 브랜드 콘텐츠 개수를 1개에서 3개로 늘린다.
A/B 테스트는 어떤 툴을 사용해서 할까요?
옵티마이즈 : 구글에서 제공하는 웹 환경의 분석 도구. GA와 연동하여 구글 제품과의 통합 과정이 비교적 수월함. 다만, GA안에서 기능으로 분류되던 것이 스탠드 얼론으로 구성되어 데이터 분석 기능이 다소 부족함. 파이어베이스 애널리틱스 : 구글에서 제공하는 앱 환경의 분석 도구. 구글 빅쿼리와의 연계를 지원하며, 무료로 서비스를 제공함. 옵티마이즐리 : 앱/웹 분석이 전부 가능한 도구, 유료 서비스이지만 테스트 설계가 용이하며 커스텀이 가능함.
서비스 개선 과정에서 A/B 테스트를 활용할 수 있는 곳은 어떤 곳이 있을까요?
-랜딩 페이지
-사이트 레이아웃
-UI
-CTA(Call-to-action) 문구
-CTA 버튼 색 및 위치
-가이드 메세지
-제품 메세지(푸시 알람 등)
적정 모수와 P-value
A/B테스트에서 고려해야할 통계적 요소 중, 적정 모수와 P-value라는 것이 있다.
적정 모수는 쉽게 얘기해서 모수(샘플 수)가 너무 적으면 그 가설이 입증됐다고 보기 어렵다는 것이다. 따라서 A/B 테스트를 실행하기 전에는 적정한 샘플 수까지 계획하는 것이 필요하다.
따라서 내가 어떻게 샘플 수를 모집할것이며, 샘플을 몇명이나 모집할 것인지를 설계하는 것이 매우 중요하다.
그래프를 보면 A/B 테스트 초기에는 초록색 그래프가 더 높이 있습다. 초반에는 초록색 그래프 쪽의 전환율이 높지만, 시간이 지나면서 보라색 그래프가 상승하면서 샘플수가 늘어나자 빨간색 포인트 부분부터 결과가 역전된 경우다.
만약 2주를 기간으로 잡고 인원을 적게 잡아서 테스트를 하면, 초록색 그래프가 더 높기 때문에 초록색이 결과가 더 좋았다고 볼 수도 있다. 이처럼 적절한 샘플수를 정해두지 않으면 테스트의 결과를 잘못 파악하는 일도 종종 일어난다. 예를 들면, 100명을 모수로 설정했을 때는 초록색이 더 좋았다고 판단할 수 있었지만 1,000명을 모수로 설정했을 때는 보라색이 더 좋았다고 판단할 수 있다.
p-value란?
적정 모수 개념은 통계학의 P-value 라는 개념과 함께 알아둬야한다.
p-value는 ‘어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가’ 를 의미한다고 할 수 있다.
A/B 테스트를 했을 때 두 그룹이 정말로 전환율에 차이가 있는것인지, 아니면 우연한 오차로 인해 차이가 발생한 것인지 의심이 들 수 있다. 다시 말하면 두 그룹이 실제로는 차이가 없는데 관측된 값에서 차이가 발생할 확률을 계산해야 하는데, 그것을 P-value 라고 한다. 일반적으로 P-value 가 0.05 보다 낮으면 신뢰할 수 있다고 본다. P-value 계산은 서베이 몽키와 같은 툴을 이용해서 진행할 수 있다.
3. As is - To be 를 통해 테스트 하고 싶은 내용에 대해 이야기해주세요.
4. 테스트 과정을 세부적으로 스케쥴링 해주세요.
5. (선택) 테스트 내용, 테스트 디자인을 상세히 작성해 A/B 테스트 설계를 완성합니다.
쏘카 랜딩 페이지에는 현재 앱 다운로드 cta만 있다. 내가 써본 차량 렌트 서비스 중에 쏘카 만큼 ux면에서, 할인 정보가 다양한 서비스였다. 이걸 랜딩 페이지에서도 확인이 바로 가능하고 사용할 수 있다면 사용자 유입, 전환율이 높을 것으로 예상한다.
테스트 설계
· 가설 : 쏘카 할인 정보가 있으면 사용자 유입이 많아질 것이다.
· 목표 : 랜딩페이지에서 사용자가 필요로 하는 정보를 후킹 요소로 삼아 서비스에 대한 이용 전환률을 높일 것이다.
· 기간 : 3주 (21일)
· 대상 : 랜딩페이지에 접속하는 예비 고객 500명
· 측정 지표 : 해당 영상 조회 수와 영상 시청후 CTA 클릭율, 실제 상담 신청율
· 결과 : P-value 측정과 서비스 구매 전환이 된 고객들의 정성 인터뷰를 통하여 결과의 유효성 확인
· 결론 : 결과가 우수한 내용(측정 지표가 높은 안)을 실제로 적용
테스트 스케쥴링
테스트 1주 전 ~ 직전Ⅰ 데이터 수집 포인트 설계, 팀원과 테스트 내용 공유, 테스트 셋팅
테스트 1일 차 ~ 14일 차Ⅰ테스트 릴리즈, 핵심지표 트래킹
테스트 종료 후 1일 차 Ⅰ 핵심지표 데이터와 그 외 유의미한 데이터 분석, P값 체크, A/B 테스트 회고 및 인사이트 정리
테스트 종료 후 2일 차 Ⅰ 팀원과 테스트 결과 공유 및 회고, 서비스 개선 방향 설정