Проанализировать столь гигантскую коллекцию текстов было по силам лишь компьютеру. Если бы ее попытался прочитать один человек, то при умеренном темпе чтения в 200 слов в минуту, без перерыва на еду и сон, ему потребовалось бы не менее 20 000 лет [83].
Эти данные можно представить себе как выборку из общей популяции когда-либо опубликованных книг. Чтобы понять, насколько велика эта выборка, представьте себе, что количество когда-либо изданных книг (130 миллионов) примерно равно количеству избирателей, зарегистрированных в Соединенных Штатах (137 миллионов). В ходе опроса Института Гэллапа, опубликованного за пять дней до президентских выборов 2012 года, было опрошено 2700 потенциальных избирателей, то есть примерно 1 из 50 000 [84]. База книг, собранная Google , включает в себя 30 миллионов книг, то есть около 1 из 4. И этот процесс продолжается – и формирует беспрецедентный список культурного наследия человечества.
Психология 29-летнего выпускника университета
Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google . Но как?
Возможность для этого представилась, когда в 2007 году жену Эреца Авиву Эйден пригласили в Googleplex – штаб-квартиру Google – для вручения награды как одной из женщин, занимающихся компьютерными науками. Эрец отправился с ней и умудрился попасть в кабинет Питера Норвига, знаменитого директора по исследованиям в Google [85].
Норвиг – пионер в области искусственного интеллекта. Он написал классический учебник по этому вопросу. А когда он говорит, люди его слушают. Например, осенью 2011 года Норвиг и Себастьян Тран организовали первый в мире массовый открытый учебный курс в сети Интернет. Этот курс по вопросам искусственного интеллекта, созданный вместе со Стэнфордским университетом, оказался невероятно популярен – на него записалось свыше 160 000 слушателей. И благодаря ему началась подлинная революция в области высшего образования.
И при всем этом у Норвига довольно неожиданный подход к собраниям и встречам. Он не любит много говорить. По сути, распознать, что скрывается за непроницаемым лицом Норвига, слушающего собеседника, даже сложнее, чем прочитать всю коллекцию книг, отсканированных Google . Затем, через некоторое время, он обычно говорит нечто либо очень глубокомысленное, либо совершенно не связанное с ходом вашего повествования. И только тогда вы понимаете, удалось ли вам его убедить.
Выслушав почти часовую презентацию Эреца, Норвиг наконец раскрыл свои карты. «Все это звучит прекрасно, но как мы сможем это реализовать, не нарушая закона об авторских правах?»
Психология юридического отдела компании из рейтинга Fortune 500
После того как Google в 2004 году публично заявила о своем намерении оцифровать все книги в мире, книгоиздательская отрасль начала – по вполне понятным причинам – нервничать. Что значит для нее, если по изданным книгам можно будет осуществлять поиск в сети Интернет? Каким именно содержимым Google хотела поделиться с аудиторией? И даже если она собиралась соблюдать закон об авторском праве, то как она могла понять, кому именно принадлежат права на ту или иную книгу? Может быть, Google просто поставит с ног на голову всю отрасль, как это сделала Apple с iTunes в области музыки?
Вскоре появились и первые иски. 20 сентября 2005 года организация Authors Guild , представляющая большое количество независимых авторов, подала групповой иск. 19 октября свой собственный иск подала Американская ассоциация издателей, представлявшая интересы крупнейших издателей McGraw-Hill, Penguin USA, Simon & Schuster, Pearson Education и John Wiley . Оба иска заявляли о «широкомасштабном нарушении авторского права». В 2006 году в схватку вступили французские и немецкие издатели, а к марту 2007 года – и конкуренты Google . Томас Рубин, один из старших юристов Microsoft , подготовил ряд заметок, критиковавших усилия Google по оцифровке и утверждавших, что Google «систематически нарушает авторские права» и «лишает людей важнейших стимулов для творчества». Проект Google Books быстро стал одной из самых горячих правовых точек в истории больших данных [86].
Проблемы Google Books являются предвестником юридических проблем, с которыми совсем скоро столкнутся исследования больших данных. Самые интересные массивы больших данных часто находятся в руках крупных корпораций – аналогов Google, Facebook, Amazon и Twitter во всем мире. Но это еще не значит, что данные им принадлежат. Обычно источником данных оказываются отдельные люди, написавшие книгу, создавшие веб-страницу или сделавшие фотографию. Эти люди сохраняют за собой значительные права на данные – и это вполне нормально, поскольку данные представляют собой их творчество. Права могут принимать форму копирайта, авторского права, прав на интеллектуальную собственность и другие. Поэтому данные не являются ни частными, ни общедоступными. Вместо этого они находятся в зоне общих прав на совместное использование, на ничейной земле, где проживает много миллионов заинтересованных людей, ни одно лицо не имеет полного авторитета, а юридический статус происходящего часто туманен.
Читать дальше
Конец ознакомительного отрывка
Купить книгу