Андреас Вайгенд - BIG DATA. Вся технология в одной книге

Здесь есть возможность читать онлайн «Андреас Вайгенд - BIG DATA. Вся технология в одной книге» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2018, ISBN: 2018, Издательство: Литагент 5 редакция, Жанр: Базы данных, Прочая околокомпьтерная литература, Справочники, popular_business, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

BIG DATA. Вся технология в одной книге: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «BIG DATA. Вся технология в одной книге»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Информация как таковая становится самой значительной отраслью экономики, и базы данных знают о каждом конкретном человеке больше, чем известно ему самому. Чем больше информации о каждом из нас попадает в базы данных, тем в меньшей степени мы существуем.

BIG DATA. Вся технология в одной книге — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «BIG DATA. Вся технология в одной книге», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Хотя количество информации безгранично, этого нельзя сказать о времени. Решения приходится принимать. Феномен социальных данных в том, что результаты процесса их переработки могут становиться новым входящим потоком.

Работа над ошибками

Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».

Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда [46]. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?

Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor [47].

Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.

Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».

Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «BIG DATA. Вся технология в одной книге»

Представляем Вашему вниманию похожие книги на «BIG DATA. Вся технология в одной книге» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «BIG DATA. Вся технология в одной книге»

Обсуждение, отзывы о книге «BIG DATA. Вся технология в одной книге» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x