Рис 52. datacatalogs.org (Open Knowledge Foundation)
Ищите данные по конкретной теме или вопросу? Не знаете, какие данные имеются и где их найти? Не знаете, с чего начать? В данном разделе мы узнаем о том, с чего начинать поиск открытых источников информации в сети.
Направьте ваш поиск в нужное русло
Многие базы данных в Интернете, даже те, которые бывает трудно найти, проиндексированы поисковиками, причем независимо от того, хотел их издатель того или нет. Вот несколько подсказок по поиску:
При поиске данных убедитесь, что вы ввели в поисковый запрос как термины, относящиеся к содержанию данных, которые вы хотите найти, так и некоторую информацию, относящуюся к формату или источнику, в котором, как вы ожидаете, находятся эти данные. Например, вы можете искать только таблицы (дополняя ваш поисковый запрос указателями типов файлов «filetype:XLS filetype:CSV»), географические данные («filetype:shp») или выдержки из баз данных («filetype:MDB, filetype:SQL, filetype:DB»). Если вы захотите, вы можете искать даже PFD–файлы («filetype:pdf»).
Также можно вести поиск по части URL–адреса. Введя в запрос при поиске в Google «inurl:downloads filetype:xls», вы будете искать файлы Excel, в веб–адресе которых есть слово «downloads» (если вы найдете всего один загружаемый файл, зачастую имеет смысл проверить, какие имеются другие результаты для той же папки на веб–сервере). Вы также можете ограничить свой поиск отдельным доменным именем, задав в условиях поиска, например, «site:agency.gov».
Еще одним популярным способом является поиск не непосредственных результатов, а тех мест, в которых могут находиться данные. Например, введение в условия поиска запроса «site:agency.gov Directory Listing» приведет к тому, что вы получите некоторые созданные веб–сервером списки, предоставляющие удобный доступ к исходным файлам, в то время как запрос «site:agency.gov Database Download» выдаст в результатах специально созданные списки.
Поиск по сайтам и сервисам баз данных
В последние годы в Интернете появился ряд посвященных базам данных порталов, хабов и других сайтов, на которых вы можете ознакомиться с хранящимися там данными. Для начала вы можете обратить внимание на следующие из них:
Официальные порталы данных.
Различные страны по разному относятся к раскрытию тех или иных баз данных. Все больше стран запускают порталы данных (вдохновляемые такими сайтами, как американский data.gov или английский data.gov.uk) для предоставления возможности гражданскому обществу и коммерческим организациям пользоваться предоставляемой властями информацией. На ресурсе datacatalogs.orgвы сможете найти самый актуальный глобальный перечень таких сайтов. Еще одним удобным сайтом является Guardian World Government Data, поисковик, включающий в себя большое количество каталогов баз данных, публикуемых иностранными правительствами.
The Data Hub
Ресурс, поддерживаемый фондом «Открытая информация» (Open Knowledge Foundation), который способствует легкому поиску, обмену и использованию открытых доступных источников данных, в частности, благодаря автоматизации данных процессов.
ScraperWiki
Онлайн–инструмент, облегчающий «извлечение полезных битов данных, которые затем могут использоваться в других приложениях или внимательно изучаться журналистами и исследователями». Большая часть «скребков» и собираемых ими баз данных находятся в открытом доступе и могут свободно использоваться.
Порталы данных Всемирного банкаи Организации Объединенных Нацийсодержат высококачественную информацию обо всех странах, зачастую за много лет.
Появился ряд новых проектов, преследующих своей целью построить сообщества вокруг обмена данными и их перепродажи. К ним относятся, например, Buzzdata, — место, посвященное обмену частными и открытыми базами данных и сотрудничеству в данной сфере, и такие магазины данных, как Infochimps, и DataMarket.
DataCouch — Место, куда вы можете загрузить свои данные, обработать их, поделиться ими или визуализировать их.
Интересный проект Google Freebaseпредлагает «сущностной график людей, мест и вещей, созданный сообществом, любящим открытые данные».
Исследование данных.
Многочисленные национальные или отраслевые агрегаторы исследовательских данных, такие как, например, UK Data Archive. В то время как многие данные являются бесплатными, существует также большое количество баз данных, для использования которых необходима подписка или которые не могут использоваться или распространяться без предварительного разрешения.
Читать дальше