Cет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё

Здесь есть возможность читать онлайн «Cет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2018, ISBN: 2018, Издательство: Литагент 5 редакция, Жанр: Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Все лгут. Поисковики, Big Data и Интернет знают о вас всё: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Автор книги, специалист Google по Data Science, провел исследование, опираясь на науку о больших данных (Big Data), а также данные, которые может предоставить исследователю Интернет. В результате он получил сенсационные данные, полностью переворачивающие современные представления об обществе, в котором мы живем.

Все лгут. Поисковики, Big Data и Интернет знают о вас всё — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Все лгут. Поисковики, Big Data и Интернет знают о вас всё», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Саммерс, человек, не склонный воспевать похвалу чужому уму, был уверен, что хедж-фонды нас уже опередили. Во время нашей беседы я был очень впечатлен тем, насколько уважительно он говорил о них, а также его убежденностью в том, что они предвосхитили многие из моих предложений. В ответ я с гордостью поделился с ним придуманным мной алгоритмом, который позволил мне получать более полные данные с помощью Google Trends. Он сказал, что это очень здорово. Когда же я спросил, мог ли «Ренессанс», количественный хедж-фонд, придумать подобный алгоритм, он усмехнулся и сказал: «Да, конечно, они бы смогли догадаться».

Сложность конкурирования с хедж-фондами – не самая основная проблема, с которой мы с Саммерсом столкнулись, продумывая возможность использования новых больших наборов данных для победы на фондовых рынках.

Проклятие числа размерностей

Предположим, ваша стратегия прогнозирования на фондовом рынке – подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет – от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!

Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 – это ваш билет в хорошую жизнь!

Или нет.

Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей – монета 391 – скорее всего, счастливая. Уменьшите количество переменных – подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет – и монеты постараются «не ударить в грязь лицом».

«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники – каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали – нашли эквивалент монеты 391.

Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter {173}. Они построили алгоритм обработки каждодневного настроения твитов всего мира, используя методы, подобные анализу настроений, рассматриваемому в главе 3. Однако они учитывали не одно настроение, а множество – счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия – таких как «я спокоен» – позволяет предположить повышенную вероятность роста промышленного индекса Доу – Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.

В чем здесь проблема?

Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу – Джонса всего за несколько месяцев.

За шесть дней до этого спокойствие не было легитимным прогностическим фактором фондового рынка. В тот момент оно было эквивалентом нашей гипотетической монеты 391 для больших данных. Хедж-фонд на базе твитов был закрыт через месяц после запуска вследствие малой отдачи {174}.

Не только хедж-фонды, пытающиеся предсказать динамику рынков, страдали от «проклятия размерности». Те же проблемы возникли у ученых, пытавшихся найти генетические ключи, объясняющие, кто мы есть.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»

Представляем Вашему вниманию похожие книги на «Все лгут. Поисковики, Big Data и Интернет знают о вас всё» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»

Обсуждение, отзывы о книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x