Поскольку сами по себе данные ни о чем не говорят, нужно проанализировать их и определить значения и взаимосвязи. Анализ данных включает выявление устойчивых моделей, или взаимосвязей между переменными, значения которых введены в массив данных. Если удается выявить взаимосвязи, тогда можно объяснить динамику переменных. Тогда будет легче решить проблему.
5. Анализ данных
Предположим, что мы собрали данные по выборке избирателей относительно их намерения голосовать за того или иного кандидата. Метод сбора данных – опрос по телефону. Но в процессе анализа мы пытаемся выявить, каким образом регион проживания, образование, уровень дохода, пол, возраст и партийная принадлежность способны повлиять на выбор того или иного кандидата. Для обнаружения зависимостей в данных можно использовать целый ряд методов, начиная с достаточно простых – графиков, расчета удельного веса и средних значений переменных – и заканчивая сложными статистическими исследованиями.
Параметры массива данных и сложность предстоящего анализа подскажут, какими именно методами лучше воспользоваться. В главе 2 Глава 2 Формулирование проблемы Хотя в мире существует множество разных видов количественного анализа, все они имеют некоторые общие черты и порядок проведения. Как мы уже говорили в главе 1 , количественный анализ включает три основных этапа и шесть шагов.
мы привели примеры таких методов. Если вы просто описываете сложившуюся ситуацию, то достаточно составить отчет или разработать набор графиков, показать, сколько анализируемых событий случилось в каждом временн о м интервале, и прокомментировать эту информацию. Обычно приходится приводить сведения о некоторых показателях, отражающих основную тенденцию , в частности о средних значениях – медианах.
Исходя из этих условий, потребуется программное обеспечение, ориентированное на составление отчетов. Сбалансированные системы показателей, сводные таблицы, тревожные сигналы – это все формы отчетов. Во вставке «Основные поставщики аналитического программного обеспечения» мы перечислили ключевых поставщиков программного обеспечения, обеспечивающего визуальное представление результатов анализа.
Основные поставщики аналитического программного обеспечения
ПРОГРАММЫ – ГЕНЕРАТОРЫ ОТЧЕТОВ
• BOARD International
• IBM Cognos
• Information Builders WebFOCUS
• Oracle Business Intelligence (including Hyperion)
• Microsoft Excel/SQL Server/SharePoint
• MicroStrategy
• Panorama
• SAP BusinessObjects
ИНТЕРАКТИВНАЯ ВИЗУАЛЬНАЯ АНАЛИТИКА
• QlikTech QlikView
• Tableau
• TIBCO Spotfire
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
• IBM SPSS
• R (свободно распространяемое программное обеспечение)
• SAS
У всех этих поставщиков программного обеспечения есть программы для графического представления данных, но некоторые из них специализируются именно на интерактивной визуальной аналитике , то есть визуальном представлении данных и отчетов. Иногда такие программы используют для простого построения графиков, иногда для исследования данных: законов распределения данных, позволяющих идентифицировать выбросы (точки с нетипичными значениями) и визуальную взаимосвязь между переменными. Таких поставщиков мы выделили в отдельный список.
Кроме того, в перечне выделена группа поставщиков, специализирующихся на еще одной категории аналитических программ – количественных методах и статистическом моделировании . В них статистика используется для выявления взаимосвязи между переменными и переноса закономерностей выборки на генеральную совокупность. Его формы – предсказательная аналитика, рандомизированное исследование и различные формы регрессионного анализа. Программное обеспечение для статистического моделирования и для генерирования различных отчетов разрабатывается разными группами поставщиков, хотя со временем они начинают смешиваться между собой.
Например, самая распространенная в мире аналитическая компьютерная программа Microsoft Excel (хотя большинство пользователей считает ее всего лишь электронной таблицей) способна решать некоторые задачи статистического анализа (и визуальной аналитики), равно как и генерировать отчеты. Однако если вам необходимо обработать большой массив данных или построить сложную статистическую модель, то возможностей Excel не хватит. Поэтому к данной категории программного обеспечения она не относится. В корпоративной среде для решения аналитических задач в дополнение к Microsoft Excel часто используют и другие программы Microsoft, в том числе SQL Server (главным образом предназначенную для работы с базами данных и решения некоторых аналитических задач) и SharePoint (обеспечивает совместную работу над проектом и решение некоторых аналитических задач).
Читать дальше
Конец ознакомительного отрывка
Купить книгу