Как ни странно, одной из компаний, которые достигли наибольшего успеха в сборе данных с учетом расширяемости, является Google. Ее автомобили Street View, вызывающие неоднозначную реакцию общества, разъезжают по улицам, не только делая снимки домов и дорог, но и собирая данные GPS, проверяя картографическую информацию и даже попутно захватывая названия Wi-Fi-сетей (а также, вероятно, на незаконных основаниях, контент, доступный в открытых беспроводных сетях). За одну поездку автомобиль Google Street View накапливает множество потоков дискретных данных. Расширяемость обеспечивается тем, что Google применяет данные и для первичного использования, и для целого ряда вторичных. Например, данные GPS не только улучшили картографическую службу компании Google, но и были незаменимы для работы ее самоуправляемых автомобилей. [103] GPS-записи и самоуправляемые автомобили Google Street View: Kirwan, Peter. This car drives itself // Wired UK. — January 2012. URL: http://www.wired.co.uk/magazine/archive/2012/01/features/this-car-drives-itself?page=all.
Дополнительные расходы на сбор нескольких потоков данных или намного большего числа точек данных в каждом потоке, как правило, невелики, поэтому имеет смысл собирать как можно больше данных, а также делать их расширяемыми, изначально рассматривая потенциальные виды вторичного использования. Благодаря этому увеличивается альтернативная ценность информации. Суть в том, чтобы искать наборы «2 в 1», когда один и тот же набор данных, собранных определенным образом, можно применять в различных целях. Так эти сведения приобретают двойное назначение.
Обесценение данных
Поскольку стоимость хранения цифровых данных резко упала, компании получили сильный экономический стимул сохранять их для повторного использования в тех же или аналогичных целях. Однако полезность данных небезгранична.
Компании Netflix и Amazon умело используют информацию о покупках клиентов, чтобы рекомендовать новые продукты. При этом у компаний возникает соблазн многократно использовать эти записи в течение многих лет. В такой ситуации можно было бы утверждать, что в рамках соблюдения обязательных нормативов (например, закона о неприкосновенности частной жизни) компаниям следует хранить цифровые записи всегда или по крайней мере пока это экономически целесообразно. Однако все не так просто.
Информация с течением времени теряет часть своей первичной пользы. В таких условиях дальнейшее использование старых данных может не только не добавить ценности, но и фактически нивелировать пользу более новых данных. Положим, вы купили книгу на сайте Amazon лет десять назад. Вряд ли она все еще отражает ваши интересы. Если Amazon будет отталкиваться от нее, рекомендуя вам другие книги, вы вряд ли их купите, а может, вообще перестанете обращать внимание на последующие рекомендации сайта. Поскольку рекомендации основываются на всех собранных данных, наличие устаревших данных сводит на нет всю пользу новых (все еще ценных).
Таким образом, у Amazon есть огромный стимул использовать данные ровно до тех пор, пока это продуктивно. Компания должна постоянно сортировать свою базу данных, удаляя информацию, которая уже утратила свою ценность. А как узнать, что данные стали бесполезными? Ориентироваться исключительно на время не всегда эффективно. Поэтому Amazon и другие компании разработали сложные модели, которые позволяют отделить полезные данные от бесполезных. Если клиент просматривает или покупает книгу, которая была рекомендована на основе его предыдущей покупки, интернет-магазин берет на заметку, что старые покупки по-прежнему отражают текущие предпочтения клиента. Это позволяет оценить полезность старых данных и, следовательно, смоделировать более конкретную «степень обесценения».
Не все данные обесцениваются. Некоторые компании имеют веские причины хранить данные как можно дольше, даже если регулирующие органы или общество предпочли бы их удалить или сделать анонимными в кратчайший срок. Вот почему Google давно сопротивляется призывам удалить полные IP-адреса старых поисковых запросов (вместо этого спустя 18 месяцев удаляются только четыре последние цифры, чтобы сделать поисковый запрос анонимным). Компания оставляет за собой возможность сравнивать данные (например, поисковые запросы для предпраздничного шопинга) в годовом исчислении. Кроме того, сведения о местоположении пользователей, выполняющих поиск, помогают повысить релевантность результатов. Если большинство жителей Нью-Йорка набирают Turkey (англ. «Турция», «индейка») и открывают сайты, связанные со страной, а не птицей, алгоритм будет ранжировать эти страницы выше и для остальных нью-йоркцев. Даже если ценность данных для первичного использования снижается, их альтернативная ценность может оставаться высокой.
Читать дальше
Конец ознакомительного отрывка
Купить книгу