Источники данных
Составить список данных, необходимых для оценки научных исследований, нетрудно. Другое дело — убедиться в том, что они надежны и что стоимость доступа к этим данным не слишком высока. Базы данных по затратам на науку и результативности исследований не всегда доступны в подходящем виде. Такова, к примеру, ситуация с общей суммой ассигнований на научные исследования, получаемых университетами, поскольку не все страны собирают подобные данные централизованно. И сбор этих данных может быть дорогостоящим.
Что касается научных публикаций, здесь доступны три источника: Web of Science (WoS), Scopus и Google Scholar. Доступ к первым двум осуществляется только по подписке, а вот третий находится (пока) в свободном доступе в интернете. Преимущество первых двух источников в плане оценки состоит в том, что их содержание контролируется и список входящих в них журналов известен. Однако их недостаток состоит в том, что доступ к ним стоит весьма дорого. Google Scholar находится в свободном доступе, однако проблема в том, что его содержание не контролируется и непрерывно меняется, настолько, что невозможно составить себе представление о его реальном содержании в тот или иной момент. Действительно, там можно обнаружить как статьи из реферируемых журналов, так и тексты, кем-то вывешенные на своей персональной веб-странице. Статьи могут появляться и исчезать, так что невозможен никакой контроль за валидностью показателей, рассчитываемых на основании этого источника. К тому же в этой базе данных не упоминается институциональный адрес авторов, что еще более ограничивает возможности ее использования в целях оценки. Наконец Google Scholar — потенциально манипулируемый источник [137] 137 См.: Emilio López-Cózar, Nicolás Robinson-García, Daniel Torres-Salinas, “Manipulating Google Scholar citations and Google Scholar metrics: simple, easy and tempting,” in arXiv:1212.0638.
.
Сириль Лаббе, французский программист из университета Жозеф-Фурье, показал, как можно манипулировать контентом Google Scholar таким образом, чтобы увеличить h-индекс фиктивного исследователя, названного им Ике Анткаре [138] 138 См.: http://bibliometrie.wordpress.com/2011/05/12/ike-antkare-i-dont-care.
. Он сфабриковал сотню коротких статеек, взаимно цитирующих друг друга, и вывесил их на веб-сайте. Когда они были проиндексированы Google Scholar, h-индекс этого фиктивного исследователя оказался равен 94, а ведь это почти невозможно для реального исследователя! Этот случай был использован для того, чтобы указать на ограниченность библиометрического метода. На самом же деле это ничего не доказывает по поводу библиометрии, а лишь ставит под вопрос состоятельность Google Scholar как базы данных для библиометрических изысканий. Трюк с Ике Анткаре был бы невозможен в Scopus или Web of Science, поскольку в них учитываются лишь журналы, публикующие анонимно рецензируемые статьи, а не спонтанно вывешиваемые в интернете документы. И хотя на агрегированном уровне наблюдается корреляция между результатами, полученными при использовании разных баз данных, в случае, когда оценка производится на индивидуальном уровне, качество базы данных имеет ключевое значение для правильной интерпретации показателей цитируемости.
Бесплатный и неконтролируемый доступ к Google Scholar и к интернету, в отличие от платного доступа к Scopus и Web of Science, разумеется, внес свою лепту в создание атмосферы оценочной анархии, которая нередко расценивается как демократизация [139] 139 См.: James Pringle, “Trends in the use of ISI citation databases for evaluation,” in Learned Publishing , 21, 2008, pp. 85–91.
. В самом деле, теперь любой исследователь может попробовать измерить свою заметность и качество, состряпав спонтанный показатель, основанный на количестве посещений веб-страницы (hits) в Google Scholar и, с недавних пор, упоминаний в «Твиттере»! В результате в последнее время участились спонтанные применения оценивания и создание фиктивных показателей научного импакта, приводящие к некоторому хаосу в академическом мире, чьи представители не всегда способны адекватно оценить качество запускаемых в оборот измерений. Такие показатели способствуют созданию рейтингов, больше похожих на «черные ящики», но подающихся в качестве надежных фактов, которые должны приниматься во внимание чиновниками разных уровней при проведении научной политики.
Таким образом, источник используемых данных представляет собой важный аспект любого оценивания. Соревнование между фирмами, участвующими на этом рынке, непосредственно влияет на содержимое библиометрических баз данных. Примерно с середины 2000-х годов наблюдается существенный рост числа журналов, зарегистрированных в WoS. Во времена, когда у Института научной информации Гарфилда была монополия на библиометрические данные, он один определял критерии качества и не стремился увеличивать число анализируемых журналов, индексируя лишь наиболее значимые издания. С выходом на этот рынок Scopus конъюнктура изменилась: владелец новой базы данных, издательский дом «Эльзевир», сделал своим конкурентным преимуществом тот факт, что он покрывает намного больше журналов. А это привлекательно для библиотек, чьей целью является максимально широкий охват научной периодики. Таким образом, количество включенных в базу данных журналов стало аргументом продаж и веской причиной для того, чтобы купить подписку: Scopus ежегодно индексирует более 16 000 журналов, а Web of Science — чуть более 12 000. Следует, однако, отметить, что состав обеих баз данных совпадает более чем на 50 % [140] 140 Например, в 2006 году 54 % журналов базы Scopus были также включены в WoS, тогда как 84 % наименований из журнальной базы WOS были также и в Scopus; см.: Ylva Gavel, Lars Iselid, “Web of science and Scopus: a journal title overlap study,” in Online Information Review , 32, 2008, pp. 8–21. Эти цифры могли с тех пор измениться из-за обострившейся конкуренции между этими двумя компаниями.
.
Читать дальше