• Можно собрать несложную BI-систему.
Минусы:
• У бесплатных версий привязка к облаку вендора. Например, Google Dashboard привязан к облаку Google.
• Неполный набор коннекторов. Например, у Google Dashboard нет коннектора к Clickhouse. Но сама такая идея под большим вопросом из-за безопасности. Клиент Google работает из облака, а значит, придется открывать доступ к вашим внутренним БД из интернета, а это не самая лучшая идея.
Пакеты статистического анализа данных
Мое знакомство с анализом данных началось именно с этих инструментов, когда меня взяли на стажировку в компанию StatSoft. Электронные таблицы и системы визуального анализа очень слабы в статистическом анализе, а именно это является необходимым атрибутом анализа данных. Допустим, вы наблюдаете разницу в показателях – как определить, она действительно существует или случайна? Для этого нужно рассчитать ее статистическую значимость.
Пакеты стат-анализа данных обычно представляют собой десктопные приложения (рис. 7.3), в которых вычисления происходят локально. Данные загружаются в виде электронных таблиц. Как правило, есть несложный визуальный ETL, как в Tableau. Есть встроенный язык программирования для автоматизации действий.
Плюсы:
• Очень богатые возможности для статистического анализа. Справка этих пакетов успешно конкурирует с учебниками по прикладному анализу данных. Сами статистические функции тщательно протестированы, в отличие от общедоступных статистических калькуляторов в интернете.
• Хорошие графические возможности.
• Внимание к деталям, что важно для научных исследований.
• С данными можно работать офлайн.
Минусы:
• Высокий порог входа. Вы должны понимать, что делать, какой именно статистический критерий использовать. Обязательно требуются базовые знания математической статистики.
• Коммерческие продукты стоят дорого.
Рис. 7.3.STATISTICA
Работа с данными в облаках
В эпоху развития удаленной работы все больше инструментов уходит в облака. Я связываю это с тем, что бизнесы, а значит источники данных, стали располагаться на облачных серверах. Перекачивать большие объемы данных по интернету то еще удовольствие. Согласно Гартнеру [46], к 2022 году публичные облачные сервисы закроют 90 % потребностей в анализе данных.
Уже практически все вендоры облаков разработали инструменты визуального анализа: Google Data Studio, Microsoft Power BI, Amazon Quick Sight, Yandex DataLens.
Плюсы:
• Данные и средства анализа находятся внутри одного периметра безопасности. Легко управлять доступом к данным. Не нужно явно подвергать себя риску и открывать доступ к данным через интернет.
• Данные доступны внутри сети одного облака – скорость работы выше.
• Нативная возможность совместной работы. Думаю, вы работали с сервисами наподобие Google Docs. Насколько удобнее получается совместная работа, чем работа со стандартным офисным пакетом.
• Тонкий клиент – все действия делаются в браузере. Не нужно ставить программы на ваш компьютер.
• Гибкое ценообразование – цена зависит от частоты использования и нагрузок.
• Расходы на администрирование системы меньше.
Минусы:
• Цена. Даже если облако предоставляет визуализацию бесплатно, за сами вычисления и агрегацию данных придется платить. Эта модель схожа с каршерингом: если вы очень активный пользователь, в какой-то момент становится выгоднее купить свой автомобиль. Так же и с облаками.
• Ваши данные находятся у одного вендора, а это порождает зависимость. Если объем информации составляет петабайты, то очень нелегко их перевести на свои сервера или облако другого вендора.
В целом мне нравится этот тренд – миграция данных и их анализа в облачные сервисы, это делает разработку аналитических систем легче и часто дешевле покупки корпоративных систем.
Что такое хорошая отчетная система
Опишу типичную ситуацию, которая возникает при запуске аналитической системы. В компании Х появляется хранилище данных и аналитическая система к нему. Аналитики проводят первое общее собрание, показывают систему, демонстрируют, какие данные доступны. Самые любознательные сотрудники (берегите их), которым этого не хватало, начинают работать с новым хранилищем и системой, и вскоре от них начинают сыпаться комментарии: это неудобно, тут тормозит, здесь не хватает данных. Поговорим о минимальных требованиях к отчетной системе, которые я встречал на практике.
Читать дальше
Конец ознакомительного отрывка
Купить книгу