VDS за 300р от нашего партнера SpaceWeb
[4]
02 Сен 2020, 12:55

Руководство по маркетингу роста для разработки A / B тестов с использованием python

В последние 7 лет в Waze я работал над широким спектром продуктов и функций, от приложения Waze (которое имеет более 130 миллионов пользователей по всему миру) до Waze Carpool, когда он впервые был запущен.

Работая с несколькими доменами в маркетинге, я воочию увидел, насколько это может повлиять на вовлеченность пользователей. Это вдохновило меня копать глубже в мир производительности и роста. В этом процессе я научился добывать данные, чтобы раскрыть значимые идеи, проектировать эксперименты соответственно, а также анализировать и интерпретировать результаты экспериментов.

Теперь я нахожусь в команде Performance Marketing, где нам поручено повысить вовлеченность пользователей во всей воронке продуктов за счет использования собственных и управляемых каналов и инструментов Waze. Мы напрямую общаемся с пользователями, в конечном итоге побуждая их к наиболее эффективным действиям для завершения своего пользовательского путешествия.

Для того чтобы понять эффективность наших кампаний мы проводим эксперименты, в первую очередь в форме “проверки гипотез”, т. е. А/Б тестирования. После проведения сотен экспериментов я определил ряд лучших практик, а также конкретные шаги по их внедрению на практике для эффективного тестирования A/B, которые вы найдете в сообщении ниже.

Примечание: мнения, разделяемые в этом посте, являются моими собственными и не отражают никаких стандартных или конкретных протоколов в Waze или Google.

Шаг 1. исследуйте существующие взаимосвязи и определите свои ключевые показатели эффективности (КПЭ)

Прежде всего, любой A/B тест, который вы проводите, должен соответствовать KPI(s) компании, чтобы ваша работа была сосредоточена на наиболее важных бизнес-приоритетах. Чтобы начать работу-

Проведение исследовательского анализа данных для выявления существующих связей в данных

Определение ключевых показателей эффективности требует сочетания знаний о домене и EDA, т. е. исследовательского анализа данных. Вам нужно глубоко понять бизнес-домен, чтобы оценить, какие из них будут наиболее важными драйверами. Затем вы можете использовать EDA для выявления взаимосвязей, которые влияют на них, так как EDA также позволяет идентифицировать связанные области в рамках воронки продуктов, которые имеют наибольшие возможности для роста.

Если вы исследуете данные в первый раз, вы должны будете выполнить следующие основные шаги:

  • Проверьте свои данные: для каждого набора данных вы сначала хотите понять, как данные структурированы и что они содержат.
  • Очистите и организуйте свои данные: удалите ненужные столбцы, адресуйте значения NULL и добавьте дополнительные столбцы, если это необходимо.
  • Используйте функции Group by & Aggregate для запуска сводной статистики, чтобы исследовать любые интересные различия между группами.
  • Проведите визуальное исследование данных (VDE), чтобы выявить возможные взаимосвязи между группами.

Пример парного графика, используемого для выявления потенциальных связей между различными частями данных (изображение автора)

Я создал ноутбук с некоторыми основными функциями, чтобы помочь вам начать работу. Вам нужно будет изменить / удалить некоторые функции, основанные на характере вашего набора данных, но в целом я нахожу эту структуру полезной, чтобы все было организовано и ясно.

Определение действенных показателей, которые коррелируют с бизнес-приоритетами / целями

Выбранные вами метрики должны быть соотнесены с клейкостью продукта (вовлеченностью) и являться надежным индикатором для долгосрочного удержания. В целом, KPI(ы) должны быть измеряемыми и действенными. То есть, вы должны быть в состоянии предпринять определенные действия, чтобы довести число до поддержки бизнес-целей. Кроме того, вам нужно достаточно существующих данных по этой метрике, или чтобы иметь возможность легко собирать данные по ней. В конечном счете, вы захотите избежать длинных итераций таймфрейма. Например: сосредоточьтесь на ежедневных или еженедельных активных пользователях, а не на ежемесячных активных пользователях, поскольку MAU потребует, чтобы вы ждали целый месяц, прежде чем вы сможете анализировать и действовать с данными.

Сосредоточьтесь на меньшем количестве показателей, чтобы добиться большего эффекта.

Когда речь заходит о ключевых показателях эффективности, вы обычно хотите следовать подходу «меньше — больше», поэтому компания может сосредоточиться на меньшем количестве показателей, чтобы обеспечить больший эффект по всем направлениям.

Вы также должны следовать этому подходу при разработке вашего A / B теста. Чем больше метрик вы пытаетесь оптимизировать, тем больше сложности вы добавите к своему эксперименту, который может потребоваться больше времени, требует больше ресурсов для проектирования и разработки и, в конечном счете, больше денег.

После того как вы обнаружите взаимосвязи в ваших данных, вы хотите погрузиться глубже в свой анализ, чтобы точно сформулировать свои ключевые показатели эффективности, которые затем будут использоваться при разработке эксперимента и при определении показателей успеха.

Шаг 2: Определите область и цель вашего эксперимента

После того как Вы выработаете лучшее понимание взаимосвязей в данных и определите соответствующие ключевые показатели эффективности, вы можете начать определять область своего эксперимента. Любой экспериментальный проект (и, честно говоря, любой проект) должен начинаться с ответа на эти 4 вопроса:

1. Будет ли этот эксперимент иметь значение?

Во многом это самый важный вопрос, который нужно задать, так как вы не хотите тратить время, деньги и ресурсы на эксперимент, где результаты не будут влиять на бизнес, продукт или маркетинговые решения. Перед началом работы над экспериментом убедитесь, что вы согласовали свои действия с соответствующими заинтересованными сторонами в вашей организации.

2. Можете ли вы измерить соответствующие ключевые показатели эффективности в этом эксперименте, и если да, то как?

Никогда не говорите: “давайте запустим этот эксперимент и посмотрим, что произойдет” (вы будете удивлены, сколько раз я слышал это раньше). Последнее, что вы хотите, чтобы понять, что вы не можете на самом деле измерить показатели, которые вы хотели бы повлиять. Определите Метрики (или ключевые показатели эффективности), на которые вы хотите повлиять, а затем убедитесь, что они измеримы и могут быть фактически применены к эксперименту.

3. Сможете ли вы обнаружить воздействие, если такое воздействие существует?

Чтобы оценить, является ли изменение, которое вы пытаетесь измерить, значимым, вам нужно иметь достаточно большой размер выборки. — Насколько большой? Это будет зависеть от нескольких факторов, включая уровень доверия, мощность и размер эффекта. Мы рассмотрим их более подробно на третьем этапе проектирования эксперимента, но в целом важно помнить, что для обнаружения эффекта, который находится глубоко в воронке продукта, потребуется больший размер выборки. Если изменение находится в верхней части воронки, производительность, такие как щелчки, открытие сообщения и т.д., Вам может не понадобиться, как большой размер выборки. Точно так же вам понадобится больший размер выборки, чтобы обнаружить небольшой размер эффекта.

Когда это возможно, определите критерии конверсии из аналогичных усилий, предпринятых для вашего продукта, чтобы разработать приблизительную оценку количества пользователей, необходимых для проведения эксперимента.

4. В случае успеха будет ли этот эксперимент «двигать иглу»?

С точки зрения бизнеса, вы также должны рассмотреть, будет ли влияние эксперимента, если он будет успешным, значимым. Другими словами, даже если ваш эксперимент приводит к статистически значимому подъему для внесенного изменения, если он затрагивает только несколько пользователей, он может не стоить запуска.

Если вы ответили » нет » на любой из вышеперечисленных вопросов, не тратьте свое время на разработку эксперимента. В противном случае, продолжайте читать-пришло время начать работать над вашим дизайном эксперимента!

Шаг 3: определение, проектирование и запуск эксперимента

После проверки необходимости проведения эксперимента и определения метрик успеха можно перейти к его проектированию. Я рекомендую использовать записную книжку, которая включает все части эксперимента: определение, план и отчет. Любой, кто читает ваш блокнот, должен легко понять обоснование, цель и масштаб эксперимента, а также то, как он был выполнен и какие выводы вы из него извлекли. Ноутбук состоит из 3 частей: определение, дизайн и запуск.

Определение

Приводится Предыстория эксперимента. В нем говорится о необходимости, о том, как будут приниматься решения и как будет использоваться терминология. Здесь вы будете использовать анализ, проведенный на шаге 1, а также обоснование, определенное на Шаге 2, чтобы обеспечить контекст и фрейминг для эксперимента.

В частности, в этом разделе вы хотите ответить на следующие вопросы:

  1. О чем идет речь в этом эксперименте?
  2. В чем заключается коммерческое обоснование этого эксперимента?
  3. Как результаты этого эксперимента повлияют на бизнес-решения? Конкретно в отделе актуальном для данного эксперимента-маркетинг, товар и т. д
  4. Как определяются метрики и терминология, используемые в контексте этого эксперимента?

Важно обеспечить, чтобы все заинтересованные стороны и читатели доклада об эксперименте ссылались на одно и то же определение всех терминов, используемых в эксперименте. Это повлияет на каждую часть эксперимента и может привести к совершенно разным выводам, если вы не сможете определить критические части эксперимента. Например, если вы проводите эксперимент, направленный на воскрешение спящих пользователей, ваше определение спящего пользователя или того, что представляет собой воскрешение, должно быть полностью определено в плане эксперимента. Другие люди могут по-разному воспринимать как вашу целевую аудиторию, так и результат и успех эксперимента в целом (true story, кстати).

Дизайн

Это является основой плана эксперимента. Он включает в себя определение популяции интереса, размер возможности, схему выборки, определение гипотезы и минимальный размер выборки, необходимый. Убедитесь, что вы включили следующее:

Население, представляющее интерес
, очень подробно определяет ваше определение таргетинга.

Размер возможности
должен быть определен на основе вашей совокупности интересов и ключевых показателей эффективности, определенных для эксперимента. Как уже упоминалось в шаге 1, вы захотите сосредоточить свои усилия на тестировании вещей, которые имеют потенциал для «перемещения иглы».

Схема
выборки способ, которым вы планируете провести выборку интересующей вас совокупности. Я также рекомендую включить любые потенциальные предвзятости выборки, чтобы убедиться, что вы и ваши заинтересованные стороны знают о них и их потенциальном влиянии на результаты эксперимента.

Нулевая и альтернативная гипотеза
это попадает в «сердце» определения эксперимента. Опишите кратко и четко, что ваши нулевые и альтернативные гипотезы являются. Ваша нулевая гипотеза должна быть вашим действием по умолчанию или существующим состоянием. Ваша альтернативная гипотеза — это новая теория или изменение, которое вы проверяете. Ваша цель в эксперименте-увидеть, есть ли достаточно доказательств, чтобы отвергнуть Null и принять изменение (альтернативная гипотеза).

Статистическая ошибка представляет собой критическую часть проверки гипотез. В частности, мы рассматриваем 2 типа ошибок: ложноположительные (ошибка I типа) и ложноотрицательные (ошибка II типа). Общим примером для иллюстрации различия между этими двумя ошибками является рассмотрение ошибки I типа Как вероятности осуждения невиновного лица, в то время как ошибка II типа относится к вероятности оправдания виновного лица.

С точки зрения вашего эксперимента, вы захотите уменьшить вероятность ложного отклонения нулевой гипотезы, следовательно, увеличив вероятность найти эффект (если таковой существует).Взяв пример выше, вы можете думать о нулевой гипотезе как о человеке, который невиновен, и альтернативной гипотезе как о человеке, который виновен. Вы захотите уменьшить шансы осуждения невиновного человека (отклонение Null), если человек действительно невиновен (Null-true).

Уровень значимости и статистика мощности
определение того, насколько комфортно вы делаете ошибку типа I, определяется через уровень значимости (a) и обычно устанавливается в 0,05 или 5% (95% доверительный уровень). Преодоление ошибки II типа осуществляется с помощью статистики мощности. 

Величина эффекта

Изображение автора

Важно понять размер эффекта, или какой результат можно ожидать в данной популяции. Следовательно, вам нужен размер эффекта. Чем больше изменений вы хотите увидеть в тесте, тем больше размер эффекта, тем меньше будет минимальный размер выборки. Чем меньше изменение, которое мы хотели бы видеть, тем меньше размер эффекта и тем больший минимальный размер выборки нам понадобится. Другими словами, если вы хотите обнаружить большие различия, вы сможете сделать это с меньшим количеством пользователей в своем тесте, но если вы хотите найти утонченные, небольшие различия, вам нужно будет включить в свой тест больше пользователей.

Минимальный размер выборки
после определения уровня значимости, мощности и размера эффекта вы можете запустить анализ мощности, чтобы определить минимальное количество пользователей, которое вам нужно, чтобы определить, является ли изменение, которое вы тестируете, значимым.

Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата при условии, что нулевая гипотеза верна. При интерпретации p-значения критерия значимости необходимо указать уровень значимости. Результат критерия значимости считается «статистически значимым», если p-значение меньше уровня значимости. Это означает, что нулевая гипотеза (что нет никакой разницы) отвергается.

  • p < = alpha: отклонение H0, другое распределение
  • p > alpha:> не удается отклонить H0, такое же распределение

С помощью библиотеки statsmodels Python вы можете легко вычислить min. необходим размер выборки, зная желаемый уровень значимости, размер эффекта и мощность (ноутбук доступен здесь):

# Импорт библиотеки # из statsmodels.Статистика.импорт мощности TTestIndPower # параметры для анализа мощности (изменение по мере необходимости) effect = 0.05 
alpha = 0.05
power = 0.8
# выполните анализ мощности # # изменение в TTestPower () в случае парного анализа t-test = TTestIndPower ()
result = analysis.solve_power (эффект, мощность=мощность, nobs1=нет, отношение=1.0, Альфа=Альфа)
печать ('размер выборки:%.2F ' % результат)

Запуск и мониторинг
теперь вы готовы запустить свой эксперимент!
Не забудьте проверить качество каждой части эксперимента, чтобы убедиться, что он ведет себя так, как вы ожидаете, и что данные текут правильно. Кроме того, убедитесь, что вы продолжаете следить за экспериментом на протяжении всего процесса. Самое главное, внимательно следить за ним в течение первых часов после запуска, чтобы выявить любые потенциальные проблемы как можно скорее.

Шаг 3: анализ и отчетность о результатах

После выполнения теста A / B вам нужно будет проанализировать и четко сообщить о результатах эксперимента. Не стесняйтесь сообщать о негативном или никаком воздействии. Часто вам нужно будет проверить несколько гипотез, прежде чем найти наиболее эффективную из них. Тем не менее, четкое и действенное сообщение результатов может помочь вам и всем соответствующим заинтересованным сторонам выровнять и продолжать оказывать влияние на ваши ключевые показатели эффективности.

Первый шаг в анализе результатов эксперимента начинается с проверки правильности выполнения теста. В частности, вы захотите подтвердить, что:

  • Размеры групп эксперимента одинаковы, т. е. если тесту было присвоено 50%-50% для каждой группы. Если вы решите разделить экспериментальные группы по-разному, вы должны будете убедиться, что каждый размер группы соответствует назначенному ему проценту.
  • Экспериментальные группы были назначены случайным образом: обязательно проверьте субпопуляции в ваших экспериментальных группах, чтобы убедиться, что нет никаких основных предубеждений, влияющих на результаты вашего эксперимента. Например, можно сгруппировать экспериментальные группы по полу или стране, чтобы убедиться, что обе группы имеют относительно одинаковые размеры.

После подтверждения валидности эксперимента необходимо проанализировать производительность каждой группы на основе метрик и ключевых показателей эффективности, определенных для теста. Хотя одна группа может показаться более эффективной, чем другая, вы должны посмотреть, являются ли результаты статистически значимыми, чтобы определить, был ли результат просто случайным или воспроизводимым результатом (фактическим воздействием).

Как узнать, являются ли результаты статистически значимыми? Если вероятность того, что связь между вашими переменными не просто случайна! Значимость измеряется в P-значении, т. е. значении вероятности, которое будет отражать, является ли вероятность того, что ваши результаты столь же экстремальны, как и результаты, которые вы наблюдаете в тесте статистической гипотезы. P-значение предполагает, что ваша нулевая гипотеза была правильной с самого начала.

Имейте в виду, что P-значения зависят от размера выборки ваших тестовых групп. P-значение представлено от 0% до 100%, но обычно записывается как десятичное число. Например, P-значение 5% равно 0,05. Низкие P-значения являются хорошими ; они указывают, что результат не произошел случайно. Вы можете думать о высоких P-значениях как о слабых доказательствах против Null, а о низких P-значениях как о сильных доказательствах против Null:

  • Высокие P-значения: ваши данные, скорее всего, имеют значение true null (сохраняйте значение Null)
  • Низкие P-значения: ваши данные маловероятны с истинным null (отклоните Null)

Я много раз слышал, как люди пытаются смягчить свои отчеты, говоря такие вещи, как «результаты были почти статистически значимыми». Давайте внесем ясность:

Нет такого понятия, как «почти значимый». Ваш результат теста может быть либо статистически значимым, либо нет.

Помимо определения того, являются ли ваши результаты теста статистически значимыми, вы также захотите определить размер эффекта или размер разницы между вашей нулевой и альтернативной гипотезой. Чтобы определить это, вам нужно будет провести тест-статистику. Различные тесты гипотез используют различную тестовую статистику, основанную на вероятностной модели, принятой в нулевой гипотезе. Несколько часто используемых тестов включают в себя:

  • Z тест (Z статистика): мера того, сколько стандартных отклонений ниже или выше среднего значения популяции является сырой балл. Z-оценка также известна как стандартная оценка.
  • T-тест (t статистика) : T-тест говорит вам, насколько значимы различия между 2 группами; другими словами, он позволяет узнать, если эти различия (измеренные в средних/средних) могли произойти случайно.
  • ANOVA (F-статистика) : аналогично T-тесту, ANOVA может сказать вам, насколько значимы различия между группами. В то время как t-тест сравнивает 2 группы, тест ANOVA может выполнять более двух групп.
  • Тесты Хи-квадрата (статистика Хи-квадрата): помогает вам найти тип связи между переменными, где задействованы нулевая гипотеза и альтернативная гипотеза.

При проведении анализа вам необходимо выбрать наиболее подходящую для вашего эксперимента T-статистику и рассчитать оба значения T & P, чтобы оценить производительность вашего эксперимента. Библиотека Statsmodels включает в себя некоторые отличные функции, которые помогут вам провести некоторые из t-тестов, упомянутых выше.

скриншот с сайта statsmodel

Используйте код в этой записной книжке для вычисления T-тестов для базовых A / B тестов, состоящих из 2 взаимоисключающих групп, которые предоставят вам значения P & T.

В итоге..

Хотя «A / B тестирование» часто используется в качестве модного слова для усилий по росту, очень важно найти время, чтобы правильно спланировать их, чтобы максимизировать их влияние. В конечном счете, если вы инвестируете время для правильного проектирования, запуска и измерения вашего эксперимента, вы будете оказывать огромное влияние на вашу организацию. Что еще более важно, вы будете управлять настоящим сдвигом парадигмы в своей собственной карьере.

Комментарии (0)

Добавить комментарий

Войдите, чтобы написать о чем-нибудь...
Вход Регистрация
Web.onRails
Здесь вы можете спросить или написать обо всём, что касается Веб-разработки.
написать о чем-нибудь...
Метки:
Лучшее
[52]
16 Окт 2011, 15:38
Вывести все элементы POST
[просмотров 13412]
[74]
31 мая 2011, 11:48
Python проверка существования переменной
[просмотров 9179]
[4]
10 Окт 2018, 15:33
Как запретить просмотр сайта по IP?
[просмотров 8815]
[100]
19 Дек 2014, 16:16
User-agent для Internet Explorer 11
[просмотров 8101]
[124]
21 Июл 2011, 14:04
Python Imaging Library (PIL)
[просмотров 6793]
[58]
29 мая 2012, 12:08
Узнать версию PHP из командной строки
[просмотров 4925]
[315]
16 Июл 2011, 20:03
Python работа с MySQL
[просмотров 4896]

Вести с Хабра