1 ...7 8 9 11 12 13 ...123 Поэтому самые сообразительные крупные компании, занимающиеся обработкой больших данных, зачастую обрезают имеющиеся в их распоряжении массивы. В компании Google основные решения принимаются на основе лишь малой толики имеющихся в их распоряжении данных. Вам не всегда нужны тонны информации для того, чтобы прийти к важным выводам. Нужны правильно подобранные данные. Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что их очень много, а в том, что люди в них весьма откровенны. Мы лжем друзьям, любовникам и любовницам, врачам, опросам и самим себе. Но Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.
Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы. Как нельзя, случайно наведя телескоп на ночное небо, обнаружить там Плутон, нельзя, просто загрузив кучу данных, открыть тайны человеческой природы. Вам необходимо будет выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».
Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение. И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:
– Как много геев среди мужчин?
– Неужели реклама действительно работает?
– Почему Американский Фараон – лучшая скаковая лошадь?
– Ангажированы ли СМИ?
– Существуют ли оговорки по Фрейду?
– Кто мошенничает с налогами?
– Важно ли, в какой колледж пойти учиться?
– Можно ли выиграть на фондовом рынке?
– Где лучшее место, чтобы растить детей?
– Как истории разносятся по сети?
– О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?
…И многое, многое другое.
Но прежде чем мы доберемся до этого, нужно обсудить базовый вопрос: зачем нам вообще все эти данные? И для этого я хочу представить вам мою бабушку.
Часть I
Данные, большие и малые
Глава 1
Интуиция вас обманывает
Если вам 33 года от роду и у вас уже несколько Дней благодарения подряд прошли без свиданий, скорее всего, возникнет тема выбора брачного партнера. И у каждого на этот счет свое мнение.
«Сету нужна сумасшедшая девчонка под стать ему», – говорит моя сестра.
«Ты с ума сошла! Ему нужна нормальная девушка, чтобы уравновешивать его», – заявляет брат.
«Сет не сумасшедший», – реагирует мать.
«Ты спятила! Конечно, Сет – настоящий псих», – заявляет отец.
Внезапно в разговор тихо вступает моя застенчивая, говорящая тихим голосом бабушка. Громкие агрессивные нью-йоркские голоса затихают, и все взгляды сосредотачиваются на небольшой старушке с короткими золотистыми волосами, говорящей с легким восточно-европейским акцентом.
«Сет, тебе нужна хорошая девушка. Не слишком красивая. Очень умная. Умеющая ладить с людьми, социальная, чтобы вы могли работать вместе. С чувством юмора, потому что у тебя хорошее чувство юмора».
Почему совет этой пожилой женщины выслушивается в моей семье с таким вниманием и уважением? Моя 88-летняя бабушка видела на своем веку больше, чем все остальные, сидевшие за столом. Она повидала множество браков, одни из которых были счастливыми, другие нет. И на протяжении десятилетий она составляла список качеств, делающих взаимоотношения успешными. За столом в День благодарения бабушка была источником самого большого числа данных. Моя бабушка сама была большими данными.
В этой книге я хочу развеять мифы о науке о данных.
Нравится нам это или нет, но информация играет все более важную роль в жизни каждого из нас – и эта роль будет становиться все значительнее. Сейчас в газетах встречаются целые разделы, полностью посвященные данным. В компаниях есть группы, единственной задачей которых является анализ собранных данных. Инвесторы дают десятки миллионов долларов стартапам, если те могут собрать и сохранить большие объемы данных. Даже если вы никогда не узнаете, как работает регрессия, и не можете рассчитать доверительный интервал, вы наверняка столкнетесь с большим количеством данных – на страницах книг, которые читаете, во время деловых встреч, в которых принимаете участие, в сплетнях, которые доходят до ваших ушей, в курилке или возле кулера, когда пьете воду.
Читать дальше
Конец ознакомительного отрывка
Купить книгу