Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Здесь есть возможность читать онлайн «Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: М., Год выпуска: 2014, ISBN: 2014, Издательство: Манн, Иванов и Фербер, Жанр: Прочая околокомпьтерная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

С появлением новой науки открылась удивительная возможность с точностью предсказывать, что произойдет в будущем в самых разных областях жизни. Большие данные — это наша растущая способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. По какому цвету покраски можно судить, что подержанный автомобиль находится в отличном состоянии? Как чиновники Нью-Йорка определяют наиболее опасные люки, прежде чем они взорвутся? И как с помощью поисковой системы Google удалось предсказать распространение вспышки гриппа H1N1? Ключ к ответу на эти и многие другие вопросы лежит в больших данных, которые в ближайшие годы в корне изменят наше представление о бизнесе, здоровье, политике, образовании и инновациях.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Задача с канализационными люками

Ежегодно несколько сотен люков в Нью-Йорке начинают тлеть из-за возгорания частей канализационной инфраструктуры. От взрыва чугунные крышки люков весом до 300 фунтов взмывают на высоту в несколько этажей, а затем с грохотом падают, подвергая опасности окружающих.

Con Edison, коммунальная компания, которая занимается электроснабжением Нью-Йорка, из года в год проводит регулярные проверки и техобслуживание люков. Раньше специалисты в основном полагались на волю случая, надеясь, что взрывоопасными окажутся именно те люки, которые планируется проверить. Такой подход был едва ли полезнее, чем блуждание по Уолл-стрит. В 2007 году компания Con Edison обратилась к статистикам Колумбийского университета, расположенного на окраине города, в надежде, что статистические данные о сети (например, сведения о предыдущих неполадках и инфраструктурных соединениях) помогут спрогнозировать, какие люки вероятнее всего небезопасны, и это позволит компании целенаправленно использовать свои ресурсы.

Это сложная проблема, связанная с большими данными. Общая протяженность подземных кабелей в Нью-Йорке — 94 000 миль (достаточно, чтобы обхватить Землю 3,5 раза). В одном только Манхэттене около 51 000 люков и распределительных коробок. Часть этой инфраструктуры построена еще во времена Томаса Эдисона (тезки компании), а один из 20 кабелей заложен до 1930 года. Сохранились записи, которые велись с 1880 года, но не систематизированные, поскольку их не собирались анализировать. Данные предоставили бухгалтерия и диспетчеры аварийной службы, которые вручную писали «заявки на устранение неисправностей». Назвать их беспорядочными — ничего не сказать. К примеру, один лишь термин «распределительная коробка» (англ. service box ), обозначающий обычную часть инфраструктуры, был записан в 38 вариантах, в том числе: SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S &BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX и SERVICE BOX. Распознать все это предстояло компьютерному алгоритму.

«Взглянув на это, мы подумали, что нам не удастся проанализировать данные, поскольку они были невероятно сырыми, — вспоминает Синтия Рудин, статистик и руководитель проекта. — У меня имелись распечатки таблиц для всех видов кабелей. Вытаскивая какие-то из них, мы не могли удержать их в руках — все тут же летело на пол. И в этом всем нужно было разобраться. Без какой-либо документации. Мне оставалось только думать, как из всего этого извлечь пользу».

Для работы Синтии Рудин и ее команде следовало использовать все данные, а не только выборку, поскольку любой из десятков тысяч люков грозил оказаться бомбой замедленного действия. Таким образом, только подход « N = всё» мог прийти на помощь. Совсем не мешало бы продумать причинно-следственные связи, но на это ушла бы сотня лет, притом что правильность и полнота результатов оставались бы сомнительными. Лучшим решением этой задачи было найти корреляции. Синтию интересовал не столько вопрос почему , сколько что , хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.

Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.

Основными факторами оказались возраст кабелей и наличие неполадок в люках в прошлом. Как ни странно, эти сведения были полезными, поскольку легко объясняли руководству Con Edison, на чем основан рейтинг. Но, помилуйте, возраст и неполадки в прошлом? Разве это не достаточно очевидно? И да и нет. С одной стороны, как любил повторять математик Дункан Уоттс (в своей книге [66] Уоттс Д . Здравый смысл врет. Почему не надо слушать свой внутренний голос. М. : Эксмо, 2012. ), «все очевидно, когда вы уже знаете ответ». С другой стороны, важно помнить, что модель изначально содержала 106 прогностических факторов. И не так уж очевидно, как их взвесить, а затем ранжировать десятки тысяч люков, учитывая множество переменных, связанных с каждым фактором. В итоге получаются миллионы точек данных, притом что сами данные изначально непригодны для анализа.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»

Представляем Вашему вниманию похожие книги на «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»

Обсуждение, отзывы о книге «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x