Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]

Здесь есть возможность читать онлайн «Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Санкт-Петербург, Год выпуска: 2021, ISBN: 2021, Издательство: Издательство Питер, Жанр: Базы данных, popular_business, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Роман с Data Science. Как монетизировать большие данные [litres]: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Роман с Data Science. Как монетизировать большие данные [litres]»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Как выжать все из своих данных? Как принимать решения на основе данных? Как организовать анализ данных (data science) внутри компании? Кого нанять аналитиком? Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня? На эти и многие другие вопросы Роман Зыков знает ответ, потому что занимается анализом данных почти двадцать лет. В послужном списке Романа – создание с нуля собственной компании с офисами в Европе и Южной Америке, ставшей лидером по применению искусственного интеллекта (AI) на российском рынке. Кроме того, автор книги создал с нуля аналитику в Ozon.ru.
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области. Книга не содержит примеров программного кода, в ней почти нет математики.
В формате PDF A4 сохранен издательский макет.

Роман с Data Science. Как монетизировать большие данные [litres] — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Роман с Data Science. Как монетизировать большие данные [litres]», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

В рекомендациях я использую офлайн-тесты в двух случаях. Во-первых, метрики должны измениться в соответствии с идеями, которые заложены в новый алгоритм. Например, если алгоритм улучшает «разнообразие» товаров в рекомендациях, то соответствующая метрика должна увеличиться. Если алгоритм «проталкивает» вверх новинки, то средний «возраст» товаров в рекомендациях должен уменьшиться. Во-вторых, если изменение метрик происходит не так, как мы ожидали, это свидетельствует об ошибке или в идее, или в ее реализации. Такие вещи нужно продумать заранее, чтобы перед просмотром метрик у вас уже были сложившиеся ожидания, иначе можно «проглядеть» ошибку. Например, новый алгоритм улучшит разнообразие товаров (будут показаны больше разных типов товаров), но ухудшит угадываемость. Если по метрикам произошло наоборот – нужно искать проблему.

И наконец, настоятельно рекомендую посмотреть на результат работы собственными глазами. Например, в рекомендациях можно сделать визуальный отчет – выбрать несколько десятков самых популярных и случайных товаров, построить по ним старые и новые рекомендации, вывести в единый отчет с картинками и названиями товаров. Посмотрите на него честно, дайте покритиковать другим. Что там нравится, а что нет? Можете найти товар, для которого новый алгоритм должен был сработать по-другому, стали ли рекомендации лучше? Я с помощью таких отчетов ищу ошибки, которые метрики иногда пропускают. Можно сказать, что они – истина в последней инстанции.

Конвейер экспериментов

Теперь мы знаем, что в компании должен быть список гипотез развития, выстроенных в порядке важности, которым управляют менеджеры по развитию бизнеса или продуктологи. Каждый раз в работу берется первая гипотеза из списка, если нужно – она моделируется и проверяется с помощью офлайн-тестов, последний шаг – тестирование с помощью А/Б-теста, затем происходит пост-анализ результатов, по итогам которого принимается решение – внедряем гипотезу или нет.

Если вы сможете упорядочить этот процесс, то получите самый настоящий конвейер экспериментов. Он действительно похож на промышленный конвейер – гипотеза движется по статусам: принято в работу, моделирование, офлайн-тестирование, онлайн-тестирование, анализ, отклонена, внедрена. Это скорее механический, а не творческий процесс. У меня он был упакован в столбцы Trello, где карточка перемещалась слева направо. Такой подход позволяет масштабировать эксперименты, у него есть свои метрики, например «время между статусами», «взято в работу», «отклонено/внедрено».

В этот момент вы поймете, что время прохождения гипотезы от начала до конца конвейера – очень большое. Особенно время на А/Б-тесты. И скорее всего, сделаете вывод, что было бы неплохо «убивать» неудачные гипотезы до того, как они пройдут хотя бы половину пути [23]. Это очень здравая идея – как можно раньше отвергнуть неудачную гипотезу, чтобы не тратить время и силы на обреченный проект. Именно таким способом мне в Retail Rocket удалось уменьшить среднее время прохождения гипотез через наш конвейер экспериментов с 90 дней до 45.

Глава 11

Этика данных

В наше время данные используются повсеместно вопрос в том насколько это - фото 61

В наше время данные используются повсеместно – вопрос в том, насколько это безопасно для людей. В сфере программирования существует понятие «жадный алгоритм» – это алгоритм, ориентированный на получение сиюминутной краткосрочной выгоды. Так вот, коммерческие компании в большинстве случаев тоже руководствуются «жадными» алгоритмами и хотят извлекать прибыль из всего, что возможно. В том числе и данных, которые мы явно или неявно оставляем. Здесь я хочу поговорить об этической стороне вопроса. Я думаю, с каждым бывало – вы поговорили с кем-то, например, о стиральной машине с вертикальной загрузкой, а через несколько минут увидели в своей ленте в соцсети рекламу этих самых стиральных машин. Это означает, что кто-то подслушал ваш разговор и воспользовался вашими данными? Конечно, это миф, но сам факт слежения за нами дает пищу для ума. Законно ли это? И если да, то насколько этично?

Как за нами следят

Наши цифровые следы можно разделить на два вида: явные (explicit) и неявные (implicit). Явные данные – те, которые мы предоставляем сознательно: заполняем анкету на сайте, ставим галочку подтверждения обработки цифровых данных, подписываем заявление или договор. Неявные – это вся информация, которую мы о себе оставляем, так называемый цифровой след: наша геопозиция через мобильную связь и систему распознавания лиц на уличных или транспортных камерах, геопозиция наших автомобилей через распознавание номеров, наши контакты, посещенные страницы в интернете. Неявных данных намного больше, чем явных, а провайдеры и потребители относятся к ним беспечно. При этом если явные данные в нашей стране хоть как-то защищаются законом о персональных данных, то неявные – вне правового поля. В Европе они стали защищенными совсем недавно с введением европейского закона GDPR [107].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Роман с Data Science. Как монетизировать большие данные [litres]»

Представляем Вашему вниманию похожие книги на «Роман с Data Science. Как монетизировать большие данные [litres]» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Роман с Data Science. Как монетизировать большие данные [litres]»

Обсуждение, отзывы о книге «Роман с Data Science. Как монетизировать большие данные [litres]» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x