Основные причины – различия в форматах данных и разрозненность их хранения. Для того чтобы превратить такие данные в полезную информацию, аналитик должен не только понимать, в каких источниках эти данные находятся, но и знать их структуру и форматы. Кроме того, надо быть готовым к ситуациям, когда одни и те же данные дублируются в разных системах или между данными из разных источников имеются логические несоответствия. Ситуация еще более усложняется по мере появления новых систем, модулей, а следовательно, и новых данных. Также следует учитывать, что получение данных из трансакционных систем сопровождается повышенной нагрузкой на эти системы, что может существенно мешать оперативной работе.
Еще одна проблема аналитической обработки информации связана с человеческим фактором. Во многих компаниях задача получения необходимого отчета автоматизируется силами двух специалистов – технического специалиста, обеспечивающего необходимые запросы к базам данных, и экономиста, пытающегося свести эти данные в единый аналитический отчет, необходимый руководству. Как показывает практика, подобная модель взаимодействия пользователя отчета (руководителя) и самих данных не только требует существенных затрат времени, но и часто приводит к эффекту «испорченного телефона». Кроме того, экономист зачастую оказывается просто не в состоянии без помощи программиста оперативно подготовить необходимую выборку и ответить на вопросы о том, каким образом были получены те или иные цифры. О том, чтобы моделировать возможные ситуации, отслеживать влияние одних показателей на другие, прогнозировать тенденции развития, проводить сравнительный анализ и отображать различные срезы данных, как правило, не идет и речи.
В 1980-е гг. упомянутые проблемы привели к идее централизованного хранения данных, необходимых для последующего анализа. При этом было признано, что все исходные данные должны храниться в одном месте, в простой и понятной (а значит, удобной для анализа) структуре. Именно в этот период возник термин «хранилище данных». За прошедшие с тех пор четверть века идеи централизованного хранения данных получили существенное развитие, чему в немалой степени способствовали рост вычислительных мощностей, новые сетевые архитектуры и интернет-технологии.
Напомним определение Билла Инмона (Bill Inmon): хранилища данных – это «предметно-ориентированные, интегрированные, стабильные, поддерживающие хронологию наборы данных, используемые для поддержки принятия управленческих решений» [Inmon, 1992, p. 29].
Данные в хранилище попадают из оперативных (трансакционных) систем, а также из внешних источников. По аналогии с «материальными» хранилищами хранилища данных предусматривают такие операции, как сбор данных (приход материалов на склад), хранение данных (складской запас), перемещение в витрины данных (отгрузка товаров в розничную сеть).
С экономической точки зрения хранилище данных приносит долгосрочный эффект тогда, когда оно становится надежным механизмом доставки данных, существенных для анализа и принятия решений. При этом не следует забывать и о затратной части: ведь информация может считаться действительно полезной лишь тогда, когда экономические выгоды от ее использования превышают затраты, связанные с ее приобретением. Построение хранилища данных – достаточно сложный проект и обеспечить его окупаемость в краткосрочной перспективе бывает непросто [Духонина, Исаев, 2005].
Высокая стоимость проектов создания хранилищ данных объясняется прежде всего необходимостью сбора, преобразования и обобщения данных из различных источников. При всей своей необходимости эта работа достаточно трудоемка и занимает много времени. Неоправданных затрат можно избежать на этапе проектирования хранилища за счет определения состава и структуры загружаемых в хранилище данных. При этом следует помнить, что хранилище данных не должно играть роль электронного архива, в котором хранится «все, что только можно». К числу распространенных ошибок относится недостаточное внимание к качеству хранимых данных, а также превалирование технологических соображений над экономическими.
Самое сложное в проектировании хранилища – добиться сбалансированной структуры, т. е. определить, какие данные будут полезны для аналитика и менеджера, а какие нет. Большое значение имеют способ размещения данных в хранилище, а также процессы идентификации, анализа и преобразования данных перед их загрузкой в хранилище.
Читать дальше
Конец ознакомительного отрывка
Купить книгу