В центре всех проектов науки о данных находятся сами данные. Однако тот факт, что организация имеет доступ к данным, не означает, что у нее есть формальное или этическое право на их использование. В большинстве юрисдикций существует антидискриминационное законодательство и законы о защите персональных данных. Специалист по данным должен знать и понимать эти правила, а также (в более широком смысле) понимать этические последствия своей работы, если хочет использовать данные на законных основаниях и надлежащим образом. Мы вернемся к этой теме в главе 7, где обсудим правовые нормы и этические вопросы, связанные с наукой о данных.
В большинстве организаций значительная часть данных поступает из баз, размещенных внутри самой организации. Но по мере роста архитектуры данных проекты начнут получать их из множества других источников, в том числе из источников больших данных. Данные в этих источниках могут существовать в различных форматах, но, как правило, представляют собой базы на основе реляционной модели, NoSQL или Hadoop. Эти данные должны быть интегрированы, очищены, преобразованы, нормализованы и т. д. Такие задачи могут называться по-разному, например: ETL (извлечение, преобразование, загрузка), подготовка, слияние, уплотнение данных и др. Результаты обработки должны храниться и управляться, как и исходные данные. Для этого также используют базы, чтобы результаты можно было легко распределить между частями организации или обеспечить им совместный доступ. Следовательно, специалист по данным должен обладать навыками взаимодействия с базами данных и обработки содержащейся в них информации.
Понятие «компьютерные науки» используется здесь для обозначения целого ряда навыков и инструментов, которые позволяют специалисту работать с большими данными и преобразовывать их в новую значимую информацию. Высокопроизводительные вычисления (HPC) предполагают агрегацию вычислительных мощностей для достижения большей производительности, чем может дать автономный компьютер. Многие проекты имеют дело с очень большими наборами данных и/или алгоритмами машинного обучения, которые требуют дорогостоящих вычислений. В таких ситуациях важно иметь навыки доступа к ресурсам HPC и их использования. Помимо HPC, мы уже упоминали о задачах сбора, очистки и интегрирования веб-данных, стоящих перед специалистом. Сюда же входит умение обрабатывать неструктурированный текст и изображения. Кроме того, неплохо, если специалист по данным способен сам написать приложение для выполнения конкретной задачи или изменить существующее, чтобы настроить его под конкретные данные и сферу деятельности. Наконец, необходима компьютерная грамотность, чтобы понимать и разрабатывать модели машинного обучения и интегрировать их в производственные, аналитические или внутренние приложения организации.
Графическое отображение данных существенно упрощает их просмотр и понимание. Визуализация применяется на всех этапах процесса. Работая с данными в табличной форме, легко пропустить такие вещи, как выбросы, тренды в распределениях или незначительные изменения данных во времени. Правильное графическое отображение выявляет эти и другие аспекты. Визуализация является важной и растущей областью науки о данных, и мы рекомендуем работы Эдварда Туфта {5} и Cтефана Фью {6} как отличное введение в ее принципы и методы.
В процессе обработки данных (от их первоначального сбора и исследования до сравнения результатов различных моделей и типов анализа) используются статистические и вероятностные методы. Машинное обучение применяет их для поиска закономерностей. Специалист по данным не обязан уметь писать алгоритмы машинного обучения, но должен понимать, как и для чего они используются, что означают сгенерированные ими результаты и на каком типе данных могут выполняться конкретные алгоритмы. Иначе говоря, воспринимать их как «серый ящик» — систему с частично известной внутренней структурой. Это позволит сконцентрироваться на прикладных аспектах и провести тестирование различных алгоритмов машинного обучения, чтобы понять, какие из них лучше всего подходят для конкретного сценария.
Наконец, важным аспектом успешности специалиста по данным является умение рассказать с их помощью историю. Это может быть история прозрения, которое дал анализ, или история о моделях, созданных в ходе проекта, которые идеально впишутся в процессы организации и благотворно повлияют на ее функционирование. В потрясающем проекте по обработке данных нет никакого смысла, если его результаты не будут использованы, но для этого надо сообщить о них коллегам, не имеющим технического образования, в такой форме, чтобы они смогли все понять.
Читать дальше
Конец ознакомительного отрывка
Купить книгу