Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.
Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends [88], он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.
Использование больших теней дает нам возможность защитить информацию в массиве данных, одновременно давая возможность с ними работать. И это оказывается в интересах не только участвующих в процессе исследователей. Поскольку идеальная тень безобидна с этической и юридической точек зрения, это может убедить осторожных хранителей выпустить ее в общий доступ. Таким образом, большие тени дают нам возможность превратить хорошо защищенные массивы данных во внушительные открытые ресурсы, пользоваться которыми может любой человек с интересной идеей – ученый, предприниматель или студент. В разговоре с компаниями мы обычно упоминаем так называемую цифровую филантропию – пожертвование битов может быть благом ничуть не меньшим, чем пожертвование денег (а кроме того, это определенно дешевле).
Для простоты давайте представим себе сырые данные Google Books как огромную таблицу, содержащую полный текст каждой книги вместе с информацией о ней, такой как название, имя и дата рождения автора, библиотека, в которой находится книга, и дата публикации. Google Books отбрасывает множество теней, однако не все из них обеспечивают одинаково интересные результаты.
Одна тень состоит из одного лишь названия каждой книги. Эта тень включает около 100 миллионов слов. Это крошечный объем данных по сравнению с полной коллекцией, и он слишком мал, чтобы пробудить к жизни новую науку. Но получить доступ даже к этой информации проблематично – Google считает названия книг внутренней корпоративной информацией, поскольку не хочет, чтобы конкуренты знали, какие книги она отсканировала, а какие – нет. Поэтому названия не могут служить хорошей тенью.
Другая тень – это полный текст всех книг, находящихся в открытом доступе, то есть всех книг, в отношении которых закончился срок копирайта. Этот набор данных по-настоящему интересен и потенциально свободен от сложностей, возникающих при наличии правообладателей. Однако у него есть два недостатка. Во-первых, поскольку копирайт имеет срок давности, в открытом доступе находится совсем немного книг, опубликованных после 1920 года. Это значит, что периоды, в которые больших данных очевидно больше – XX и начало XXI века, – почти не представлены. Во-вторых, устаревшие законы в области копирайта часто не позволяют четко определить статус каждой книги. Подобная проблема преследует подавляющее большинство книг в коллекции Google . А поскольку непонятно, какие книги можно включать, это может значительно усложнить процесс расчета тени.
Итак, что мы могли предложить Норвигу?
Мы вновь подумали о книге Legendary, Lexical, Loquacious Love Карен Реймер. Разве изучение книги Реймер и то, как частота тех или иных слов позволяет увидеть скрытые стороны произведения и мысли его автора, не стало бы еще интереснее, если бы сюжет представлял собой значительную часть исторических записей западной цивилизации, а автором оказался в каком-то смысле каждый?
Чем больше мы думали об этом, тем больше этот алфавитный роман казался нам источником тени, простой и прекрасной, прекрасной, прекрасной, прекрасной, прекрасной. Почему бы нам просто не воспользоваться частотой слов в книгах Google ?
Читать дальше
Конец ознакомительного отрывка
Купить книгу