Общий или типовой проект
Он сочетает различные элементы, свойственные другим проектам, имеет наиболее разнообразные элементы и самый длинный жизненный цикл. Такие типы проектов наиболее часто встречаются в консалтинге, а также на стадии становления Data Science экспертизы в компании.nnПримеры общих (типичных) проектов – прогноз churn пользователя, прогноз дефолта по потребительскому кредиту.n
Диагностика данных
Достаточно часто перед началом нового проекта нужно оценить, достаточно ли в системе данных, чтобы правильно измерить успех проекта и корректны ли эти данные.nnДиагностика данных может быть частью другого Data Science проекта, а может существовать полностью обособленно, поскольку цикл диагностики, настройки правильного сбора данных и их последующая валидация могут быть длительными и требуют специального фокуса от Data Scientist.n
Диагностика данных, связанных с использованием текстового поиска:
- Проверить:n
- собирается ли информация о том, как пользователи используют текстовый поиск на сайте;
- можем ли мы реконструировать, какой текст писал клиент;
- на какие предложения поиска клиент кликал;
- каким был список возможных предложений;
- каких данных не хватает;
- Организовать сотрудничество с командой front-end, чтобы собрать нужные данные. Проверить, собираются ли новые данные корректно.
Диагностика данных, связанных с выплатами по кредиту:
- Проверить:n
- корректно ли собираются исторические данные о выплатах по кредитам;
- сохраняем ли мы информацию обо всех успешных и неуспешных платежах, успешных и неуспешных попытках автоматического списания задолженности по кредитам.
- Убедитесь, что мы можем реконструировать состояние выплат по кредиту в любой момент в прошлом.
- Скорректируйте сбор данных, если нужно, и убедитесь, что новые данные собираются правильно.
Exploratory Data Analysis (EDA)
Очень распространен тип проекта, который также может существовать как часть типичного Data Science-проекта. Обычно EDA-проект выполняется по просьбе бизнес-стейкхолдеров и его главной цель – получение инсайтов об определенной части бизнеса. Результаты проекта используются для принятия бизнес-решений, в частности, о тактике развития продукта. EDA-проекты часто имеют несколько итераций.nnНапример, проанализировать, на каком шаге регистрации в системе чаще всего возникают проблемы. В идеале — понять, какое действие выполняют пользователи (какой шаг анкеты вызывает больше задержек и т. д.). На основе результатов анализа Product Manager может решить убрать проблемные пункты анкеты или полностью изменить процесс регистрации.nnИли еще пример: проанализировать, какие бренды наиболее популярны среди пользователей разных сегментов. Как результат – кастомизировать сайт, чтобы пользователям разных сегментов было легче находить любимые бренды.n
Reporting (Data Visualization)
Очень нужен бизнес тип проекта, качество которого может существенно повлиять на принятие бизнес-решений. Регулярный доступ к данным позволяет правильно и своевременно оценивать изменение ключевых KPI. Удачно построенные легко интерпретируемые отчеты позволяют сфокусироваться на важной информации и не тратить время на разбор данных.nnЧасто задача Data Scientist состоит не только в построении отчета, но и в его «дизайне», когда нужно понять, какие метрики лучше всего описывают процесс. Проекты по построению отчетов продолжительны и обычно имеют много итераций.nnПримеры:n
- Построить кривые конверсии по разным маркетинговым каналам во времени и показать динамику изменения кривых.
- По данным лога, показывающего посещение клиентом разных страниц сайта, показать, насколько эффективно функционируют разные разделы сайта и насколько удобно клиенту искать продукты на сайте.
A/B test analysis
Last but not least. Этот тип проекта чрезвычайно нужен при запуске новых фич. Он может быть частью типового проекта, когда перед использованием новой модели сначала запускают тестирование, чтобы подтвердить эффективность модели. Data Scientists могут быть задействованы на разных этапах, начиная от дизайна самого теста и заканчивая собственно анализом. Ключевая роль Data Scientist – определить, был ли тест успешными или нет. При этом участие в тестировании может иметь разные направления:n
- чисто формальный анализ, когда сбор ключевых KPIs для оценки теста автоматизирован и нужно просто просмотреть результаты и подтвердить/считать статистическую значимость теста;
- сбор и обработка данных, когда необходимо полностью разобраться с данными, проверить корректность разбиения на подвыборки, выстроить принципиальные метрики;
- дизайн теста, когда Data Scientist предлагает тест на основе результатов EDA;
- всесторонний анализ результатов теста, когда нужно не просто формально просмотреть результаты, а понять нюансы работы теста для разных сегментов клиента. В зависимости от того, как совершенна продуктовая аналитика в компании, может строиться как в особых инструментах анализа, так и «с нуля».
Часто A/B тесты имеют несколько итераций, когда по результатам первого теста планируется следующий. Обычно циклом подобных проектов занимается один и тот же Data Scientist.nnПримеры:n
- на основе анализа поисковой активности пользователей на сайте, предложить серию экспериментов для улучшения работы поиска на сайте.
- после разработки модели прогноза дефолта по кредиту запустить тест и части пользователей выдавать кредиты по результатам модели, а части по старым правилам. Сравнить показатели дефолта для разных групп клиентов.
Выводы
Все Data Science-проекты имеют общие черты, отличающие их от других software-проектов:n
- Данные как фундамент. Каждый тип Data Science-проекта включает в себя несколько итераций интенсивной работы с данными. Чем лучше Data Scientist знаком с данными, тем быстрее и легче проходят итерации проекта.
- Интеграция в настоящие системы. В большинстве коммерческих компаний результаты работы Data Science-команды необходимо интергировать в системы компании и будет нужно тесное сотрудничество с software engineers.
- Опыты и итерации. Большинство Data Science-проектов нуждаются в нескольких итерациях, что связано с углублением в задачу и данные, а также с получением обратной связи о работе модели.
Описанные в статье этапы жизненного цикла различных Data Science-проектов неисчерпаемы, но могут помочь понять типичный цикл жизни и правильно построить ожидания и коммуникацию со стейкхолдерами.