[그로스] 가설 검증하기 A/B 테스트
오늘도 어느 날

[그로스] 가설 검증하기 A/B 테스트

by 하노(hano)

A/B테스트

[그로스] 가설 검증하기 A/B 테스트

 

이 글은 이런 분들께 도움을 줄 수 있습니다
  • 그로스에서 가설 검증하는 방법에 대해 궁금하신 분들
  • A/B테스트 실행 시 주의사항이 궁금하신 분들
  • A/B테스트의 신뢰도를 확인하는 방법이 궁금하신 분들

 

A/B 테스트란?

 A/B 테스트는 이름 그대로 기존 안 A안과 변형 안 B 안을 두고 서로 비교하는 테스트다. 일반적으로 2개의 안을 일정기간 동안 동시에 내보내 결과의 차이를 비교한다.

 A/B 테스트를 하는 이유는 빠르게 그리고 적은 비용으로 실험할 수 있기 때문이다. A/B 테스트는 비교적 시간적 인적 자원이 적게 드는 가설 검증 방법이며 데이터를 기반으로 결론을 도출하기 때문에 신뢰할 수 있는 방법이다. A/B 테스트를 통해 작게 실험을 반복함으로써 큰 리스크를 피할 수 있다.

 

최소한의 통계학 지식

 ✅상관관계와 인과관계

 A/B 테스트를 진행하기 앞서 최소한으로 알아야 하는 통계학 지식이 있다. 그 첫 번째로 상관관계와 인과관계의 개념을 먼저 알아야 한다. 아마 과학 시간에 실험에 대해 배울 때, 배워본 개념일 것이다. 상관관계란 두 개의 요소가 함께 변하지만 원인-결과 관계는 아닌 관계이다. 반면 인과관계는 두 개의 요소가 원인-결과의 관계로 묶여 영향을 주고받는 관계이다.

 예를 들면, 여름이 되어 아이스크림 판매량이 증가하였다. 마찬가지로 물놀이를 하다가 사망한 익사자 수도 증가하였다. 이때 아이스크림 판매량과 익사자 수는 서로 영향을 미치는 요인은 아니지만 증감이 함께 변화한다. 이 두 요소의 관계가 상관관계이다. 반면 기온의 상승과 아이스크림 판매량은 각각 원인과 결과에 해당한다. 이를 인과관계라고 한다.


✅ 관찰 실험과 통제 실험

 그다음 알아볼 개념은 실험에 대한 개념이다. 내가 과수원에 서 있다가 까마귀가 날자 배가 떨어진 것을 봤다고 하자. 나는 까마귀가 날면 배가 떨어진다는 결과를 도출할 수 있다. 이것이 관찰 실험이다. 하지만 까마귀가 배를 떨어트린 것인지 혹은 바람이 불어서 떨어진 것인지 우리는 알 수 없다. 이처럼 관찰 실험에서는 인과 관계를 밝혀낼 수는 없다.

 통제 실험은 과수원에 유리 돔을 씌워놓고서, 열매가 열린 배나무 한 그루와 까마귀를 가둬놓고, 다른 돔에는 배나무만 놓고 어떤 결과가 나오는지 지켜보는 것이다. 이때 중요한 것은 두 유리돔 안의 환경은 까마귀를 제외하고는 똑같아야 한다. 이때 까마귀를 독립변인이라고 하며 까마귀의 행동에 따라 결과가 변하는 배는 종속 변인이라고 한다. 그 외에 똑같이 만들어야 하는 바람이나 다른 환경 요소들은 통제 변인이라고 한다.

 

✅ 통계적 유의성

 통계적 유의성이란 실험 결과가 우연으로 발생한 것인지 아닌지에 대한 가능성을 뜻한다. 만약 실험의 결과가 우연의 결과가 아니고 신뢰할 수 있다면, 통계적으로 유의미하다고 표현한다.

실험 실행의 5단계

1️⃣ 목표 설정하기

 목표 설정하는 데에는 여러 기준이 있을 수 있다. 최우선적으로 고려해야 하는 것은 우리 사업의 최종 목표가 무엇인지 고려하는 것이다. 만약 우리 사업이 초기 단계라면 A/B 테스트를 통해 더 높은 유입을 발생시키는 것이 목적이 될 것이다. 이처럼 우리 사업의 목적을 우선 생각하고 그에 맞는 KPI를 선정한 뒤에 A/B 테스트를 통해 어떤 KPI를 확인할지 정해야 한다.

2️⃣ 방안 정하기

 목표를 정했다면 다음은 어떻게 테스트를 진행할지 고민해야 한다. 광고 소재를 바꿀지, 랜딩 페이지의 헤드라인을 바꿀지 방법은 무궁무진하다. 어떤 요소가 우리가 정한 KPI 영향을 미칠만한 요소가 무엇일지 해당 요소를 어떻게 바꿀지 고민하고 방안들을 리스트업해야 한다.

3️⃣우선순위 정하기

 그다음은 리스트업 한 방안들을 우선순위를 정해야 한다. 우선순위를 정할 때에는 객관적인 기준이 있어야만 한다. 일반적으로는 효과가 가장 큰 것을 우선으로 선택한다. 우선순위를 정하는 기준 중 대표적으로 ICE 프레임워크가 있다.

4️⃣ 실행하기

 우선순위까지 완료했다면 이제 실행할 차례다. 실행 단계에서는 세 가지 작업이 필요하다.

1. 실험군과 대조군 설정하기: Challenger와 Control

 실험군과 대조군을 설정해야 한다. 실험군이라는 변화를 준 버전이며 대조군은 기존 안을 뜻한다.


2. 규모와 테스트 기간 설정 : 구글에 'A/B test sample size calculator' 검색

 A/B 테스트의 결과가 통계적 유의성을 지니기 위해서는 충분히 큰 규모의 실험이 진행되어야 한다. 따라서 어느 정도면 통계적 유의성이 생길 수 있을지 그 규모를 정하는 작업이다. 구글에 A/B test sample size calculator를 검색하면 이 수치를 계산할 수 있는 다양한 계산기를 찾을 수 있다.


3. 배정하기

 이제는 어느 비율로 실험군과 대조군을 설정할지 배정 방식을 결정해야 한다. 크게 3가지 방법이 있다.

1) 노출 분산 방식
 페이지가 렌더링 될 때, 일정한 비율로 A와 B를 노출하는 방법으로 높은 확률로 통계적 유의성이 있는 결과를 얻을 수 있다. 하지만, 같은 사용자가 A안과 B안 두 가지 안에 모두 노출될  가능성이 있다. 사용자 경험과 관련된 UI/UX를 이 방법으로 실험한다면 사용자에게 혼란을 주고 통일성 있는 고객 경험을 헤칠 수 있다.


2) 사용자 분산 방식
 사용자를 A, B 그룹으로 분리하여 고정적으로 다른 버전을 노출하는 방법이다. UI/UX 테스트에 적합하다. 하지만 특정 Heavy User에 따라 결괏값이 왜곡될 수 있기 때문에 사용자 그룹을 나눌 때 유의가 필요하다.


3) 시간 분할 방식
 시간을 분할하여 A, B안 노출하는 방법으로, 위 두 방법을 사용할 수 없을 경우 대안적으로 활용하는 방법이다.

5️⃣ 결과 확인

 실행까지 완료되었다면 이제는 결과를 확인하고 테스트의 결과가 유의미 한지 아닌지를 판단한다. 유의미했다면 실험 결과에 따라 결과를 반영하고, 만약 테스트 결과가 통계적으로 유의미하지 않다면 기존 안을 유지하고 다른 실험을 진행한다.

 

주의 사항

1️⃣ 하나의 실험에서 변수는 하나만

 하나의 실험에서는 변수를 한 가지만 두어야 한다. 변수가 여러 개가 존재하면 어떤 요인으로 인해 해당 차이가 발생했는지 밝히기 어렵다.(인과관계를 밝히기 어렵다.) 두 가지 요소가 복합적으로 영향을 미쳤을 수도 있고 어떤 한 가지 요인이 강하게 작용했을 수 있지만, 우리가 그 이유를 찾을 수는 없다. 이처럼 하나의 변인(조작 변인)만 바꾸고 나머지 요인들은 유지시키는 것을 변인통제라고 한다. 반드시 변인통제를 지켜줘야 한다.

2️⃣ 동시에 진행

 시간 역시 차이를 발생시킬 수 있는 요인이기 때문에 변인통제를 하는 차원에서 A안 B 안을 동시에 노출해야 한다.

3️⃣ 목표도 하나만 있어야 한다

 하나의 실험에는 변수와 마찬가지로 목표도 단 한 가지다.

4️⃣ 하나의 캠페인에는 하나의 실험만 하는 것을 추천한다

5️⃣ 충분한 시간을 들여야 한다


A/B테스트 예시 이미지

 현재 진행 중인 A/B 테스트 예시로, 광고 소재를 변수로 두었다. A 안은 혜택을 밝히지 않았고 B 안은 설문조사 참여 혜택을 밝혔다. 광고 소재를 제외한 문구와 CTA버튼은 동일하게 유지하였고, 광고 소재 역시 최대한 비슷하게 만들려고 노력했다.

 예시에 등장한 설문조사는 이곳에서 진행 중이며 한 번씩 참여해주시면 감사하겠습니다.

반응형

블로그의 정보

오늘도 어느날

하노(hano)

활동하기