• При наличии причины наступает следствие.
• При отсутствии причины следствие не наступает.
Кластеризация, или кластерный анализ. Распределение результатов наблюдений (записей в базе данных) по группам (кластерам) таким образом, что результаты в одной группе имеют сходные черты, в то время как результаты разных групп отличны друг от друга. Кластеризация является основной задачей интеллектуального поиска данных и стандартным приемом анализа статистических данных в самых разных областях.
Корреляция. Степень зависимости двух или более переменных друг от друга. Степень зависимости выражается коэффициентом корреляции, принимающим значения в интервале от 1,0 до –1,0.
Если коэффициент корреляции равен +1 (полная положительная корреляция), то это означает, что обе переменные пропорционально изменяются в одинаковом направлении.
Коэффициент корреляции равен 0 – между переменными нет связи.
Если коэффициент корреляции равен –1 (полная отрицательная корреляция), то это означает, что при возрастании одной переменной вторая уменьшается.
Наличие корреляции не обязательно означает, что имеется причинно-следственная связь. Иначе говоря, корреляция является необходимым, но не достаточным условием причинности.
Факторный анализ. Статистический метод, раскрывающий взаимосвязь между многими переменными или объектами. Это позволяет объединить взаимосвязанные переменные в группы, называемые факторами. Такой прием часто используется для структурирования и/или сокращения количества видов данных. Например, если исследователю предстоит проанализировать более сотни переменных, факторный анализ позволит объединить их в десяток комбинированных показателей, каждый из которых отражает динамику десятка исходных переменных.
Зависимая переменная. Переменная, значение которой неизвестно и подлежит прогнозированию или объяснению. Например, если вы хотите предсказать качество вина урожая определенного года на основе среднегодовой температуры периода созревания, количества осадков в период сбора урожая и в предшествующую зиму, то качество вина будет зависимой переменной. Иногда используются еще термины «объясняемая переменная» и «результирующий фактор».
Независимая переменная. Переменная, значение которой известно и применяется для прогнозирования или объяснения динамики зависимой переменной. Например, если вы хотите предсказать качество вина на основе исследования различных переменных (средняя температура в период созревания, количество осадков в период сбора и предыдущей зимой, возраст вина), то эти переменные и будут независимыми. Иногда их называют еще объясняющими переменными, переменными регрессии, фактор-аргументами.
Регрессия. Статистический метод, позволяющий построить уравнение для оценки неизвестного значения зависимой переменной через известные значения одной или более независимых переменных. Простая регрессия означает, что для оценки зависимой переменной используется одна независимая переменная. Множественная регрессия означает, что для прогнозирования зависимой переменной используются несколько независимых переменных. Логическая регрессия использует несколько независимых переменных для прогнозирования бинарной категориальной зависимой переменной (то есть переменной вида да/нет, за/против, покупать/не покупать).
R-квадрат (R2). Наиболее популярный показатель для оценки степени совпадения рассчитанной регрессии с данными выборки, по которой произведен расчет. R-квадрат отражает также степень изменчивости зависимой переменной по сравнению с рассчитанной линией регрессии. Его значение колеблется в интервале от 0 до 1, и если оно равно, например, 0,52, то это означает, что 52 процента вариации зависимой переменной объясняется независимыми переменными, включенными в уравнение регрессии. В общем случае чем выше значение R2, тем более адекватной считается модель.
Проверка гипотез. Системный подход к проверке исходного предположения об окружающей реальности. Он включает сопоставление исходной гипотезы или утверждения с доказательствами истинности и на этом основании принятие решения о том, следует ли признать ее истинной или ложной. Гипотезы можно разделить на два вида: нулевая гипотеза и альтернативная гипотеза. Суть нулевой гипотезы (H0) состоит в том, что между результатами приведенных наблюдений не существует статистически значимой связи [41].
Читать дальше
Конец ознакомительного отрывка
Купить книгу