Одним из наиболее распространенных типов выхлопных данных являются метаданные , т. е. данные, описывающие другие данные. Когда Эдвард Сноуден опубликовал документы АНБ, касающиеся программы тотальной слежки PRISM, он также сообщил, что агентство собирало большое количество метаданных о телефонных звонках людей. Это значит, что АНБ фактически не записывало их содержание (т. е. не вело прослушивания телефонных разговоров), но собирало данные о звонках, например когда был сделан звонок, кому, как долго длился и т. д. {5} . Этот тип сбора данных может показаться не столь зловещим, но исследовательский проект MetaPhone, проведенный в Стэнфорде, обнаружил, что метаданные телефонного звонка могут раскрыть большой объем личной информации {6} . Тот факт, что многие организации работают в узких сферах, позволяет относительно легко выявлять информацию о человеке на основе его телефонных звонков. Например, некоторые из участников исследования MetaPhone звонили «Анонимным алкоголикам», адвокатам по бракоразводным процессам и в медицинские клиники, специализирующиеся на венерических болезнях. О многом могут говорить и закономерности звонков. Вот два примера закономерностей, выявленных в ходе исследования и раскрывающих очень деликатную информацию:
«Участник А общался с несколькими местными группами поддержки людей, страдающих неврологическими заболеваниями, специализированной аптекой, службой лечения редких состояний и горячей линией лекарственного средства, применяемого исключительно для лечения рассеянного склероза… В течение трех недель участник B связывался с магазином товаров для ремонта, слесарем, продавцом оборудования для гидропоники и торговцем марихуаной {7} ».
Традиционно наука о данных была сосредоточена на получении собранных данных. Однако, как показывает исследование MetaPhone, выхлопные данные также могут быть использованы для выявления скрытого смысла. В последние годы выхлопные данные становятся все более и более полезными, особенно в области взаимодействия с клиентами, где связывание между собой различных наборов выхлопных данных может создать более широкий клиентский профиль, тем самым позволяя бизнесу точнее ориентировать свои услуги и маркетинг. Сегодня одним из факторов, стимулирующих развитие науки о данных, является признание современным бизнесом ценности выхлопных данных и их потенциала.
Данные накапливаются, мудрость — нет!
Цель науки о данных — использовать их, чтобы получить прозрение и понимание. Библия призывает нас к пониманию через мудрость: «Главное — мудрость: приобретай мудрость, и всем имением твоим приобретай разум» (Притч. 4:7). Этот совет разумен, но он ставит вопрос о том, как именно нужно искать мудрости. Следующие строки из стихотворения Т. С. Элиота «Камень» описывают иерархию мудрости, знаний и информации:
Где мудрость, которую мы потеряли в знанье?
Где знанье, которое мы потеряли в сведеньях? {8}
Иерархия Элиота отражает стандартную модель структурных отношений между мудростью, знаниями, информацией и данными, известную как пирамида DIKW (см. рис. 2). В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые, в свою очередь, предшествуют мудрости. Хотя порядок уровней в иерархии, как правило, не вызывает споров, различия между этими уровнями и процессы, необходимые для перехода от одного к другому, часто оспариваются. Но если посмотреть в широком смысле, то можно утверждать следующее:
• данные создаются с помощью абстракции или измерения мира;
• информация — это данные, которые были обработаны, структурированы или встроены в контекст таким образом, что стали значимы для людей;
• знание — это информация, которая была истолкована и понята таким образом, что появилась возможность действовать в соответствии с ней по необходимости;
• мудрость — это умение найти надлежащее применение знанию.
Последовательные операции в процессе обработки данных могут быть представлены аналогичной пирамидальной иерархией, где ширина пирамиды отображает объем данных, обрабатываемых на каждом уровне, и чем выше уровень, тем результаты действий более информативны для принятия решения. Рис. 3 иллюстрирует иерархию операций науки о данных, начиная с их сбора и генерации посредством предварительной обработки и агрегирования и заканчивая пониманием результатов, обнаружением закономерностей и созданием моделей с использованием машинного обучения для принятия решений в бизнес-контексте.
Читать дальше
Конец ознакомительного отрывка
Купить книгу