Или прогнозируя будет кандидат успешным продавцом или нет в конкретной компании, в качестве гипотезы могу заложить предположение, что успешность определяют результаты по нескольким тестам, пол и уровень образования.
Гипотезы очень важны. Хорошо о них было сказано на 32 минуте последней сериии фильма «Михайло Ломоносов» (Мосфильм, 1986): «Запомните, в основе науки лежит ежечасная работа по спирали опыта. Но не бойтесь и гипотез! Они в естественных и философских трудах подчас единственный путь, которым величайшие умы постигли самых важных истин. Гипотезы! Полет! Порыв души!…»
Гипотезы могут или быть верными, или отклоняться.
И в современных подходах отклонить или принять гипотезу помогает расчет вероятности, являются наблюдаемые закономерности случайными, или можно считать их реальными. Особенно это важно для социально-экономической реальности, где не работают жестко предопределенные законы.
Так, например, для успешности продавца могут оказаться верными предположения по тестам и уровню образования, но будет отвергнуто влияние пола.
Любая гипотеза (наше предположение) в статистике раскладывается на две статистических гипотезы:
– нулевая (H 0), которая гласит, что обнаруженных в наборе данных (выборке) закономерностей в генеральной совокупности нет – это исключительно случайность, которая имеет место только в исследуемой Вами выборке.
– альтернативная (H 1), которая гласит противоположное: что обнаруженная в выборке закономерность имеет место и в генеральной совокупности.
Пока о гипотезах все. Больше о нулевых и альтернативных гипотез будут рассмотрены в следующей главе в привязке к понятию вероятности.
Вероятность в статистике выражается в % и лежит в диапазоне от 0 до 1 (0—100%). Обозначается буквой Р – от англ. probability .
В повседневной жизни мы привыкли оценивать вероятность события или вероятность истинности каких-то утверждений. Например, 80% что пойдет дождь, 99% что я сдам этот тест, вероятность выбить с клиента долг менее 10%…
Но практическая статистика оперирует не вероятностью наступления события (или истинности утверждения), а вероятностью ошибиться в случае применения обнаруженной закономерности ко всей генеральной совокупности.
Самым страшным и критичным в анализе считается именно обнаружить закономерности, взаимосвязи или различия, которых на самом деле в генеральной совокупности не существует.
А не обнаружить какие-то реально существующие взаимосвязи – это не так страшно. Это как в правосудии: выпустить виновного считается менее критичным, нежели обвинить невиновного…
Статисты придали этим вещам названия в виде нулевой (H 0)и альтернативной (H 1)гипотез. H 0говорит, что обнаруженных закономерностей, взаимосвязей или отличий в генеральной совокупности нет – это исключительно случайность, которая имеет место только в исследуемой Вами выборке.
Я в свое время для себя просто запомнил, что нулевая гипотеза (H 0) – это ноль различий / взаимосвязей / закономерностей.
Только если вероятность H 0крайне низка – принимается альтернативная гипотеза (H 1), что обнаруженная в выборке закономерность имеет место и в генеральной совокупности.
Т.е., в практике мы пытаемся в первую очередь ответить на вопрос – какова вероятность, что выведенная нами взаимосвязь между параметрами или закономерность является случайной и ее на самом деле нет в генеральной совокупности?
Например, криминалист, собрав все известные случаи, видит вроде как закономерность, что серийные маньяки орудуют в пределах трех кварталов от места жительства. Можно ли это распространить на всю генеральную совокупность? Или это просто случайное «стечение обстоятельств» в его выборке данных?
Конечно, проще всего было бы взять еще пару выборок из генеральной совокупности и убедиться, что в них также наблюдается такая связь. Но это не всегда возможно. И все равно ответ не может быть точным, пока не будет изучена вся генеральная совокупность.
Для того, чтобы чувствовать себя поувереннее, распространяя полученные на выборке закономерности на всю генеральную совокупность, используется очень узкий интервал – не более 5% вероятности ошибки.
Все закономерности (взаимосвязи, различия), вероятность ошибки по которым ниже этого интервала (т.е. менее 5%), считаются статистически значимыми. В англоязычной литературе обозначаются Sig., Significant .
Читать дальше