Алексей Шуленин, Microsoft
Реферат доклада
В прошлом году на конференции "Корпоративные информационные системы" в докладе "Технологии Microsoft в области анализа данных" (см. http://citforum.ru/seminars/cis99/ms.html) были рассмотрены основные компоненты и принципы работы OLAP-служб в составе Microsoft SQL Server. Опираясь на этот материал, мы постараемся дать краткий обзор развития идей, лежащих в основе Microsoft DataWarehousing Framework и ее интеграции в технологию Windows DNA. Напомню, что в аналитические службы для SQL Server входит OLAP-сервер, клиент PivotTable Service и открытые интерфейсы доступа к многомерным данным OLE DB для OLAP и ADO MD. OLAP-сервер является главным элементом данной архитектуры. Задачи его администрирования могут выполняться как через графический интерфейс утилиты OLAP Manager, так и программным путем с помощью административных ActiveX-объектов DSO (Decision Support Objects). OLAP-сервер может работать с данными из реляционных баз SQL Server, а также Oracle и других внешних источников, к которым можно получить доступ по ODBC или OLE DB. В наполнении хранилищ важную роль играют службы преобразования данных DTS, которые входят в состав SQL Server и которые были очень подробно рассмотрены в одноименном докладе на прошлогодней конференции "Корпоративные базы данных". Хранилища данных под управлением OLAP-сервера могут располагаться в самой реляционной базе (ROLAP), в собственной многомерной структуре OLAP-сервера (MOLAP), либо вычисленные агрегаты можно хранить в кубе OLAP-сервера, а детальные данные - в реляционной базе по месту их исходного нахождения (HOLAP). С точки зрения клиента все эти кубы выглядят одинаково. OLAP-службы обладают кооперативным клиент-серверным кэшем. Кэш на стороне клиента обеспечивает компонент PivotTable Service. Клиентский кэш предназначен для уменьшения нагрузки на сервер и минимизации сетевого трафика. Так, например, если сначала запрашиваются данные за январь, февраль, март текущего года, а затем - за 1 квартал этого года в сравнении с аналогичным периодом предыдущего, то на сервер уйдет запрос только по данным за 1-й квартал предыдущего года. OLAP-сервер имеет встроенные архитектурные решения, позволяющие эффективно бороться с такими характерными для хранилищ проблемами, как пустоты и взрывной рост данных. Используя известную аналогию с правилом "20:80", можно сказать, что 20% агрегатов дают 80%-выигрыш в производительности. Aggregation Wizard при проектировании структуры хранилища на основе эмпирического алгоритма определяет только действительно необходимые агрегаты, т.е. те, от которых за минимальное число операций можно вычислить остальные. Таким образом достигается оптимальный баланс между производительностью обработки аналитических запросов и местом, которое хранилище занимает на диске. Существуют и другие решения. Так, Usage-Based Optimization Wizard позволяет дополнительно оптимизировать структуру агрегатов в зависимости от конкретной рабочей нагрузки за определенный период. Простейшим клиентом для OLAP служит MS Excel 2000, чьи средства построения сводных таблиц и графиков прекрасно адаптированы для работы с хранилищами как на базе Microsoft OLAP, так и других производителей, поддерживающих интерфейсы OLE DB для OLAP. В состав MS Office 2000 входят Web-компоненты, позволяющие легко строить клиентские приложения для анализа данных. Наконец, клиентские приложения любого уровня сложности могут быть созданы с использованием любого высокоуровневого средства разработки, такого как Visual C++, Visual Basic, Visual InterDev и т.д. и открытых интерфейсов OLE DB для OLAP и ADO MD. Другими преимуществами OLAP-служб выступают возможность обратной записи (writeback) в клиентский кэш (что особенно удобно для обработки запросов "что-если") и непосредственно в хранилище, пользовательские свойства - виртуальные измерения, вычисляемые члены измерений, виртуальные кубы и функциональность создания "оторванных" подкубов для офф-лайновой работы с ними.
Ниже будет приведен краткий перечень новой функциональности Microsoft OLAP Services for SQL Server 2000 из того, что было открыто объявлено на момент подготовки данного доклада.
7 марта 2000 г. Microsoft опубликовала пресс-релиз, в котором говорится о выпуске бета-версии OLE DB for Data Mining - спецификации открытых интерфейсов, базирующихся на языке SQL, которые позволят фирмам-производителям программных продуктов и независимым разработчиков более эффективно и просто интегрировать функциональность поиска закономерностей в профильные бизнес-приложения и приложения электронной торговли. Спецификация OLE DB for Data Mining находилась на совместном тестировании ведущих поставщиков решений в области поиска закономерностей с мая 1999 г. Она включает в себя стандарты Predictive Model Markup Language (PMML), разработанные промышленным консорциумом Data Mining Group (http://www.dmg.org) и основанные на языке XML. О своей поддержке OLE DB for Data Mining уже объявили такие фирмы, как ANGOSS Software Corp., AppSource Corp., Comshare Inc., DB Miner Technology Inc., Knosys Inc., Magnify Inc., Megaputer Intelligence Inc., Maximal Innovative Intelligence Ltd., NCR Corp., PolyVista Inc., SPSS Inc. и другие, известные своими разработками продуктов Data Mining и Business Intelligence.
Естественно, что поддержка данных интерфейсов будет включена в Microsoft SQL Server 2000, что обогатит его аналитические службы возможностями поиска закономерностей. Поиск скрытых закономерностей в бизнес-данных позволит предприятиям, использующим SQL Server, оптимизировать свой бизнес за счет обнаружения неявных взаимозависимостей, предсказания важных маркетинговых факторов и прогноза стратегии ведения бизнеса. Извлечение знаний на основе исследования данных играет существенную роль в задачах Business Intelligence, с которыми так или иначе сталкиваются практически все предприятия в процессе своей повседневной деятельности. К ним относятся, например, целевая реклама (какой баннер вывесить данному посетителю), перекрестные продажи (какие еще товары с большой долей вероятности купит клиент, если он уже купил товар А), управление рисками (какую программу страхования предложить клиенту, под какой процент можно выдать запрошенную сумму кредита), ценообразование (какую скидку дать клиенту) и т.д.
Итак, задачи поиска закономерностей актуальны для предприятий любого масштаба. Тем не менее до сегодняшнего момента их могли позволить себе только самые крупные из них, поскольку большинство существующих на рынке систем относится к разряду высшего ценового диапазона, требует усиленной аппаратной конфигурации и отличается сложностью в администрировании и использовании. Еще одним препятствием на пути широкого распространения систем поиска закономерностей являлось отсутствие открытых интерфейсов и слабая интеграция приложений такого рода друг с другом. Мы надеемся, что с выходом SQL Server 2000 все эти препятствия будут сняты.