Ключевая задача, решаемая аналитической системой - сделать накопленную в компании информацию более доступной, интерпретируемой и своевременной. Потребители информации должны быть обеспечены механизмами интерактивного составления отчетов, возможностью проверки гипотез, выявления закономерностей в накопленных данных. Лица, принимающие стратегические решения должны обладать механизмами мониторинга и оповещения обо всех важных для бизнеса процессах и тенденциях. Эта задача становится труднореализуемой в условиях исторически сложившейся неоднородности и противоречивости информационных систем, используемых в компании (файлы MS Office, 1С, Navision, CRM, системы бюджетирования и т.д.).
Для эффективного решения описанных задач перед компанией встает задача проектирования и построения единого хранилища данных (Data Warehouse) и системы многомерного аналитического хранения и доступа к информации (OLAP).
Построение единого аналитического хранилища (Data Warehouse) предназначено решать следующие задачи:
- Обеспечение единой версию предоставляемой информации, что может быть критично для поддержки принятия решений. Довольно часто приходится сталкиваться с тем, что различные информационные системы, используемые в компании, могут предоставлять противоречащую друг другу информацию по критичным для бизнеса вопросам. Это связано с различной степенью надежности, полноты и детальности хранимой в них информации. Использование единого хранилища гарантирует, что все потребители информации получат на свои запросы непротиворечивые ответы.
- Улучшение качества хранимых данных. В процессе заполнения хранилища данные очищаются, приводятся к единому формату, проверяются на непротиворечивость и соответствие бизнес-правилам. Также используются различные статистические тесты на выявление аномалий, возможных ошибок ввода и т.д. Построение хранилища неизбежно приводит к стандартизации справочников, процедур ввода первичных данных, а также к оптимизации информационной политики компании.
- Хранение данных в терминологии бизнеса, что улучшает их понятность и доступность конечным пользователям.
- Оптимизация хранения данных с точки зрения быстроты выполнения аналитических запросов. Для этой цели используется денормализация, интенсивная индексация, предагрегация и кеширование данных на основании статистики пользовательских запросов. Для ускорения отклика системы используются подходы, невозможные в транзакционной системе, так как последняя предназначена для оптимизации ввода и хранения информации.
- Значительное ускорение цикла разработки аналитических отчетов в связи централизованным хранением всей необходимой информации. Разработчикам не надо разбираться в структуре данных в исходных транзакционных системах, все что им нужно хранится в единой структуре данных, оптимизированной под их запросы.
- Возможность интерактивного составления сложных аналитических отчетов на лету и без участия программистов. Такие отчеты должны обеспечивать возможность анализа операций по различным показателям во всех значимых аналитических разрезах, функции "проваливания" в детали плоть до единичных операций, выполнения сложных агрегаций и сравнений.
- Безопасность. Централизация данных означает лучший контроль над доступом к ним.
- Возможность хранения истории операций, в то время как исторические данные иногда надо удалять из транзакционных систем.
- Определение и мониторинг ключевых показателей эффективности функционирования предприятия в различных разрезах. Создание системы "семафоров" - оповещений определенных сотрудников о фактах "нездоровья" бизнеса по различным показателям и с точки зрения различных процессов.
- Выявление нетривиальных, интересных и значимых закономерностей (паттернов) в накопленных данных. Представление выявленных закономерностей в наглядном виде. Возможность быстро построить модель и прогноз по выявленным закономерностям.
Таким образом, полноценная аналитическая система должна обеспечивать выполнение следующих процессов:
1. Получение, преобразование и загрузка данных (ETL)
Задача по получению, преобразованию и загрузке данных в единое информационное хранилище (Data Warehouse) включает в себя:
- Объединение информации из различных информационных систем, используемых в компании.
- Фильтрация, очистка, валидация, предагрегация данных, выявление аномалий и противоречий. Преобразование всех данных в единый формат.
- Создание единого информационного хранилища, объединяющего информацию из множества используемых систем. Данные в хранилище организованы в терминах бизнеса и оптимизированы для построения отчетности.
- Создание витрин данных - разрезов данных в общем хранилище с фокусированием на определенных процессах. Витрины данных обеспечивают также ролевой подход к доступу данных из хранилища.
- Создание периодических задач по обновлению хранилища. Разработка системы оповещения об ошибках, противоречиях и недоступности исходных данных и других событиях при наполнении хранилища.
2. Многомерный анализ данных в реальном времени (OLAP)
Система онлайновой аналитической обработки данных (OLAP - Online Analytical Processing), создается на основе многомерного хранилища данных и предназначена, в первую очередь, для создания на лету аналитических отчетов и представлений. Данные в таких хранилищах структурированных в виде кубов, описывающих процессы компании (продажи, закупки, логистика, хранение, маркетинговые компании, и т.д.). В кубах хранятся данные о выполнении бизнес-операций в виде фактов (объем продаж, число единиц на складе и т.д.) и измерений (время, география, поставщик, покупатель, товар и т.д.). Средства OLAP позволяют осуществлять стратегический обзор ситуации и в реальном времени получать ответы на вопросы, интересующие аналитика. Средства OLAP в основном предназначены для быстрого составления отчетности по консолидированным показателям процессов в различных разрезах и с произвольной глубиной "проваливания" в оперативные данные. Средства OLAP также идеально подходят для проверок заранее сформулированных аналитиком гипотез.
Основным преимуществом использования OLAP являются:
- Наглядность представление структуры данных на основе процессов, фактов и измерений.
- Возможность конструирования и сохранения аналитических отчетов на лету, не прибегая к помощи программистов.
- Гибкий механизм проваливания в детали и агрегации данных по различным разрезам.
- Высокая скорость построения отчетов, вызванная тем, что данные в многомерном хранилище хранятся уже в предвычисленном виде.
- Мощная аналитическая и вычислительная платформа: статистические функции, функции над множествами, сложные функции агрегирования (продажи за тот же период прошлого года, аккумулятивные показатели, двигающиеся среднее и т.д.).
Компания spellabs предлагает свои услуги про проектированию и построению хранилищ данных и систем онлайновой аналитической обработки данных.