Теперь перейдем к более обширной картине массива данных. На первом этапе с помощью простого скрипта я визуализировал все взносы за период времени. Как видно, взносы почти всех кандидатов ничтожно малы по сравнению с тремя наиболее крупными значениями. Дальнейший анализ показывает, что эти огромные взносы пришли из «Фонда победы Обамы 2012» (по–другому «Супер ПАК»), а именно 29 июня ($450 тыс.), 29 сентября ($1,5 млн.) и 30 декабря ($1,9 млн.).
Рис 72. Three clear outliers (Gregor Aisch)
В то время как сами взносы от «Супер ПАК» уже без сомнения дают отличный повод для написания статьи, можно взглянуть шире. Дело в том, что эти крупные взносы отвлекают наше внимание от маленьких взносов, сделанных частными лицами. Поэтому уберем их из поля зрения. Такое преобразование обычно называют исключением резко отклоняющихся значений. Вновь изобразив данные на графике, мы видим, что большинство взносов составляли от $10 тыс. до –$5 тыс.
Рис 73. Removing the outliers (Gregor Aisch)
Согласно «Закону о федеральной избирательной кампании», частные лица не могут делать взносы более $2 500 в пользу каждого кандидата. Как видно из графика, очень много взносов гораздо выше этого допустимого уровня. В частности, наше внимание привлекли два больших взноса, сделанных в мае. Складывается впечатление, что они, как в зеркале, отражены в отрицательных значениях (возвратах) в июне и июле. Дальнейший анализ данных выявил следующие транзакции:
10 мая Стивен Джеймс Дэвис из Сан–Франциско, юрисконсульт Banneker Partners, перечислил Обаме $25 800.
25 мая Синтия Мёрфи из Литл–Рок, специалист по связям с общественностью в Murphy Group, перечислила Обаме $33 300.
15 июня $30 800 было возвращено Синтии Мёрфи, в результате чего ее фактический взнос составил $2 500.
8 июля $25 800 было возвращено Стивену Джеймсу Дэвису, в результате чего его фактический взнос составил $0.
Что любопытного в этих цифрах? Деньги, возвращенные Синтии Мёрфи ($30 800), эквивалентны максимальному годовому взносу, который может внести частное лицо в пользу комитетов национальной партии. Возможно, она хотела объединить два взноса в одну транзакцию, но ей было отказано. Деньги, возвращенные Стивену Джеймсу Дэвису ($25 800) теоретически равны разнице между $30 800 и $5 000 (максимально возможный взнос в любой другой политический комитет).
Еще один любопытный вывод из последнего графика – это горизонтальная линия, показывающая взносы республиканским кандидатам: от $5 000 до $2 500. Для большей наглядности я изобразил только взносы кандидатам–республиканцам. Получившийся график – это отличный пример выявления закономерностей, которые иначе не удалось бы обнаружить.
Рис 74. Removing outliers 2 (Gregor Aisch)
Мы видим, что многие кандидаты–республиканцы получили взносы по $5 000. При более близком рассмотрении видно, что таких взносов 1234, т.е. только 0,3% от общего числа взносов. Но так как взносы равномерно распределены во времени, просматривается линия. Интересно то, что частные взносы ограничены суммой в $2 500. Следовательно, каждый доллар сверх лимита был возвращен спонсору, в результате чего возникла вторая линия на уровне –$2 500. Такая закономерность не прослеживается, если проанализировать взносы в пользу Барака Обамы.
Рис 75. Removing outliers 3 (Gregor Aisch)
Таким образом, было бы интересно выяснить, почему тысячи спонсоров кандидатов–республиканцев не знали об ограничении, существующем для частных взносов. Для дальнейшего анализа рассмотрим общее количество взносов в размере $5 000 на каждого кандидата.
Рис 76. Donations per candidate (Gregor Aisch)
Конечно, это не совсем точная картина, так как не учитывается общее количество взносов каждому кандидату. Следующий график показывают долю взносов в сумме $5 000 на каждого кандидата.
Рис 77. Where does the senator’s money come from?: donations per candidate (Gregor Aisch)
Какой можно сделать вывод
Зачастую подобный наглядный анализ нового массива данных кажется очень увлекательным путешествием в незнакомую страну. Вы – чужеземец, при вас только данные и предположения, но с каждым шагом, с каждым новым графиком вы все больше вникаете в вопрос. На основе полученных выводов вы предпринимаете новые шаги, решаете, какие вопросы требуют более тщательного изучения. Как становится ясно из этой главы, процесс визуализации, анализа и преобразования данных можно повторять практически бесконечно.
Читать дальше