Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Здесь есть возможность читать онлайн «Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: М., Год выпуска: 2014, ISBN: 2014, Издательство: Манн, Иванов и Фербер, Жанр: Прочая околокомпьтерная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

С появлением новой науки открылась удивительная возможность с точностью предсказывать, что произойдет в будущем в самых разных областях жизни. Большие данные — это наша растущая способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. По какому цвету покраски можно судить, что подержанный автомобиль находится в отличном состоянии? Как чиновники Нью-Йорка определяют наиболее опасные люки, прежде чем они взорвутся? И как с помощью поисковой системы Google удалось предсказать распространение вспышки гриппа H1N1? Ключ к ответу на эти и многие другие вопросы лежит в больших данных, которые в ближайшие годы в корне изменят наше представление о бизнесе, здоровье, политике, образовании и инновациях.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

То, насколько можно усовершенствовать алгоритмы, увеличив количество данных, убедительно продемонстрировано в области обработки естественного языка — способа, с помощью которого компьютеры распознают слова, используемые нами в повседневной речи. Примерно в 2000 году Мишель Банко и Эрик Брилл из исследовательского центра Microsoft Research поставили задачу улучшить средство проверки грамматики — элемент программы Microsoft Word. Перед ними было несколько путей: улучшение существующих алгоритмов, поиск новых методов или добавление более сложных функций. Прежде чем выбрать один из них, они решили посмотреть, что будет, если существующие методы применить к гораздо большему количеству данных. Большинство исследований по машинному обучению алгоритмов полагались на корпусы, [44] Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определенными принципами, размеченных по определенному стандарту и обеспеченных специализированной поисковой системой. Термин введен в употребление в 1960-х годах в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники. состоящие из миллиона слов, а то и меньше. Поэтому Банко и Брилл выбрали четыре алгоритма общего назначения и ввели в них на три порядка больше данных: 10 миллионов слов, затем 100 миллионов и, наконец, миллиард.

Результаты поразили. Чем больше данных подавалось на входе, тем лучше были результаты работы всех четырех типов алгоритмов. Простой алгоритм, который хуже всех справлялся с половиной миллиона слов, показал наилучший результат, обработав миллиард слов. Степень точности возросла с 75 до более чем 95%. И наоборот, алгоритм, который лучше всех справлялся с небольшим объемом данных, показал наихудший результат при больших объемах. Следует отметить, что при этом его результат, как и результат остальных алгоритмов, значительно улучшился: с 86 до 94% точности. «Эти результаты показывают, что нам, возможно, понадобится пересмотреть свое представление о том, на что стоит тратить время и средства: на разработку алгоритмов или на развитие корпусов», — отметили Банко и Брилл в одной из своих научных статей на эту тему. [45] Эффективность алгоритма: Banko, Michele. Scaling to Very Very Large Corpora for Natural Language Disambiguation / Michele Banko & Eric Brill // Microsoft Research. — 2001. — P. 3. URL: http://acl.ldc.upenn.edu/P/P01/P01–1005.pdf.

Итак, чем больше данных, тем меньше затрат. А как насчет беспорядочности? Спустя несколько лет после того, как Банко и Брилл начали активно собирать данные, исследователи компании Google, их конкурента, стали рассуждать в том же направлении, но еще более масштабно. Они взялись тестировать алгоритмы, используя не миллиард слов, а корпус из целого триллиона слов. Целью Google была не разработка средства проверки грамматики, а еще более сложная задача — перевод.

Концепция так называемого «машинного» перевода появилась на заре вычислительной техники, в 1940 году, когда устройства состояли из вакуумных ламп и занимали целую комнату. Идея стала особенно актуальной во времена холодной войны, когда в руки США попало огромное количество письменных и устных материалов на русском языке, но не хватало человеческих ресурсов для их быстрого перевода.

Специалисты в области компьютерных наук начали с того, что выбрали сочетание грамматических правил и двуязычный словарь. В 1954 году компания IBM перевела 60 русских фраз на английский язык на основе словарного запаса компьютера, состоящего из 250 пар слов, и шести правил грамматики. Результаты оказались многообещающими. В компьютер IBM 701 с помощью перфокарт ввели текст «Мы передаем мысли посредством речи» и получили на выходе We transmit thoughts by means of speech. В пресс-релизе по случаю такого события отмечалось, что было «благополучно переведено» 60 предложений. Директор программы профессор Леон Достерт из Джорджтауна заявил, что машинный перевод станет «свершившимся фактом» предположительно через «лет пять, а то и три [года]». [46] Демоверсия IBM: слова и цитаты: IBM. 701 Translator: Press release // IBM archives. — January 8, 1954. URL: http://www-03.ibm.com/ibm/history/exhibits/701/701_translator.html. См. также: Hutchins, John. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. — November, 2005.

Первоначальный успех был обманчив. К 1966 году комитет по вопросам машинного перевода признал, что потерпел неудачу. Проблема оказалась сложнее, чем они предполагали. Суть перевода заключалась в обучении компьютеров не только правилам, но и исключениям. Этому трудно обучить компьютер в прямой форме. В конце концов, перевод состоит не только в запоминании и воспроизведении, как могло показаться раньше. Речь идет о поиске подходящих слов среди множества альтернативных вариантов. Что значит bonjour? «Доброе утро», «добрый день», «здравствуйте» или, может быть, «привет»? Все зависит от обстоятельств.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»

Представляем Вашему вниманию похожие книги на «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»

Обсуждение, отзывы о книге «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x