Количественная социальная наука
Теперь я хочу обратиться к количественной социальной науке. Существует три ее разновидности: измерение, анализ данных и моделирование. Все три связаны, поскольку анализ данных часто требует измерений (для установления данных) и моделирования (чтобы указать, какие данные мы должны искать). Я сосредоточусь на моделировании, потому что слишком мало знаком с измерениями и анализом данных, но все же сначала скажу о них несколько слов.
Измерение, например, потребления на душу населения, безработицы, распространения коррупции или того, что общество думает о смертной казни, по сути своей очень сложная операция. Чтобы измерения потребления позволяли делать сравнения по времени и по разным регионам, они должны учитывать, что потребители с одинаковым доходом в разное время и в разных местах могут покупать разные товары, что доходы потребителей и имеющиеся в наличии товары также могут различаться. Безработицу трудно измерить, если существует масштабная теневая экономика, большое число студентов, заключенных или людей, прекративших поиски работы. Измерение коррупции обычно основывается на восприятии уровня коррупции, определяемом оценками экспертов и опросами общественного мнения. По очевидным причинам трудно получить независимые свидетельства, чтобы оценить надежность этих источников. Даже там, где они совпадают во мнениях, это может происходить по причине общей предвзятости. Замеры общественного мнения предполагают стабильность последнего. Однако хорошо известно, что незначительные изменения в формулировке вопросов могут привести к большим различиям в ответах. «Поддерживаете ли вы А?» побуждает совсем к другому ответу, чем «Поддерживаете ли вы А, если альтернативой является В?», даже если понятно, что В – единственная альтернатива А. Например, пусть А будет вступление некоей страны в Европейский союз, а В – невступление. Эти проблемы могут очень сильно повлиять на точность анализа данных.
Анализ данных (под которым я понимаю статистический анализ) в определенном смысле является сердцевиной современной социальной науки. Если мы заинтересованы в изучении крупномасштабных социальных явлений, мы знаем, что всегда будем иметь дело с населением, различающимся по ряду параметров, таких как здоровье, доход, семейное положение, предпочтения и место жительства. Любой детерминистский прогноз, вроде того, что столкнувшись с внешним шоком Х (например с увеличением предельной ставки налогообложения), все индивиды ответят поведением В (например, уменьшением своих трудовых ресурсов), обречено на провал. Вместо этого пытаются определить, какова вероятность того, что индивид в данной категории отреагирует каким-то определенным образом, установив корреляцию между принадлежностью к данной категории и реакцией. Как правило, все это сугубо технические процедуры.
Такие опыты могут оказаться крайне опасными, то есть заключать в себе ряд ловушек, в которые могут попасть даже очень опытные ученые. В главах I и II я вкратце описал пять их них: добыча данных, подгонка кривой, произвольность в измерениях зависимых и независимых переменных, проблема различения корреляции и причинности, а также трудности с определением направления каузальности. Распространенная практика использования «запаздывающих» (lagged) значений переменных, устанавливающая корреляцию между одной переменной в момент t и значением другой в момент t + n , создает дополнительные возможности для искажений. Кроме того, проблемой может стать гетерогенность единиц анализа. При статистическом анализе причин войны неочевидно, что Первая и Вторая мировые войны не должны рассматриваться наравне с «футбольными войнами» между двумя латиноамериканскими странами. Кто-то, кроме того, может поставить под сомнение практику устранения аномальных случаев как «выпадающего значения» для подгонки данных. Еще одна проблема – предвзятость выборки, которая, например, может иметь место, если опросы общественного мнения проводятся по телефону, который исключает индивидов, не имеющих такового или по какой-то причине не отвечающих на звонки.
Неспециалисту вроде меня невозможно определить, как часто представители социальной науки попадают в эти и другие ловушки анализа данных. Золотым стандартом должно быть предсказание или «постсказание», которое предсказывает одну часть наблюдений, исходя из анализа другой. Выявление паттернов в данных может оказаться неубедительным из-за бесконечных возможностей для подтасовок и жульничества. Эти возможности тоже в принципе могут быть ограниченны, если ученые предварительно возьмут на себя обязательства, касающиеся гипотез и процедур анализа. Насколько мне известно, такой прием применяется редко.
Читать дальше