По оценкам, с момента изобретения печатного станка (середина XV века) опубликовано 129 миллионов различных книг. К 2010 году, пять лет спустя после запуска своего книжного проекта, компании Google удалось отсканировать более 15 миллионов наименований — существенную часть письменного наследия мира (более 12%). Это дало начало новой учебной дисциплине — «культуромике». Она представляет собой вычислительную лексикологию, которая пытается понять поведение человека и культурные тенденции путем количественного анализа текстов.
В ходе одного из исследований гарвардские ученые, обработав миллионы книг и более 500 миллиардов слов, выявили, что менее половины английских слов, которые встречаются в книгах, включены в словари. Они писали, что английский лексикон «состоит из лексической “темной материи”, которая не зафиксирована в стандартных справочных источниках». Проведя алгоритмический анализ упоминаний о еврейском художнике времен нацистской Германии Марке Шагале, они могли бы показать, что подавление или цензура идеи, как и человека, оставляет «отпечатки, которые можно измерить количественно». Слова на страницах — словно окаменелости в осадочных горных породах, до которых приверженцы культуромики могут докопаться, словно археологи. Конечно, это влечет за собой огромное количество неявных предубеждений: отражают ли библиотечные книги истинное положение вещей в мире или показывают только то, что дорого авторам и библиотекарям? И все же культуромика дает интересные результаты.
Преобразование слов в данные открывает множество способов их применения. Конечно, их можно читать традиционным способом или анализировать с помощью компьютера. Но для Google как для образцовой компании, которая занимается обработкой больших данных, не было секретом, что информация имеет несколько потенциальных назначений, вполне оправдывающих ее сбор и датификацию. Так, например, с помощью датифицированного текста Google удалось улучшить свою службу машинного перевода. Как говорилось в третьей главе, система определяла отсканированные переводные книги и анализировала, какие слова и фразы на одном языке соответствуют словам и фразам на другом. Зная это, система обрабатывала перевод как огромную математическую задачу, в которой компьютер выясняет вероятности, чтобы определить наилучшие соответствия слов в разных языках.
Переход от цифровых изображений страниц к датифицированному тексту чреват ошибками. Даже очень сложные программы распознавания символов сталкиваются с трудностями из-за чрезвычайного разнообразия шрифтов, опечаток в тексте и выцветших чернил. Для слов, которые до сих не поддаются расшифровке с помощью специальных программ, компания Google поставила себе на службу хитрый способ получать непреднамеренную помощь от интернет-пользователей (об этом подробнее рассказано в следующей главе).
Конечно, Google не единственная компания, которая мечтала перенести богатое письменное наследие мира в эпоху компьютеров. Она далеко не первая решила попробовать это осуществить. Проект «Гутенберг» (общественная инициатива по размещению различных произведений в интернете для общего пользования) был призван сделать тексты доступными людям исключительно для чтения. При этом не предусматривались дополнительные способы использования слов (в качестве данных), то есть не шла речь о повторном использовании. Подобным образом издатели в течение многих лет экспериментировали с электронными версиями книг. Но они тоже видели основную ценность книг в их содержании, а не в данных. На этом строилась их бизнес-модель. Издатели никогда не обращали внимания на данные, присущие тексту книги, и не позволяли этого другим. Они не видели в этом необходимости и попросту недооценивали потенциал данных.
Многие компании сейчас соперничают за успех на рынке электронных книг. Похоже, в этой области с большим отрывом лидирует компания Amazon с ассортиментом своих электронных книг Kindle. Однако стратегии компаний Amazon и Google в этой области значительно разнятся.
Компания Amazon получила в свое распоряжение датифицированные книги, однако не сумела найти новые способы применения текста в качестве данных. Джефф Безос, основатель и главный исполнительный директор компании, убедил сотни издателей выпустить книги в формате Kindle. Книги Kindle представляют собой не изображения страниц (в противном случае никто бы не смог изменить размер шрифта или отобразить страницы как на цветных, так и на черно-белых экранах) — их текст датифицирован, а не просто оцифрован. Компании Amazon удалось совершить с миллионами новых книг то, что Google усердно старается повторить с множеством старых.
Читать дальше
Конец ознакомительного отрывка
Купить книгу