Конференция "Корпоративные базы данных'2001"

DB2 как средство интеграции гетерогенных данных.

Лисовский К.Ю., ИнБИТ Центр.

Система управления базами данных DB2 Universal Database является основой целого семейства программных средств обработки гетерогенной информации. Объектно-реляционная архитектура DB2 изначально предусматривала возможность расширения реляционного ядра этой СУБД средствами обработки новых типов данных, таких как реляционные расширения (relational extenders), предназначенные для работы с изображениями, видео, аудио, XML и т.д.

По оценкам IBM, от 70 до 95 процентов корпоративных данных хранится не в СУБД, а средствами файловой системы. Развитие Internet в его современном виде только усугубляет эту ситуацию. Одним из возможных решений здесь является применение технологии Data Links, которая раcширяет DB2 средствами прозрачного доступа к данным, хранящимся во внешних для СУБД файлах. Data Links обеспечивает ссылочную целостность для таких данных и предоставляет единую среду для управления данными, хранящимися в СУБД и в файловой системе.

Информационная система крупного предприятия характеризуется, как правило, наличием различных источников данных. Для их итеграции может быть использован DataJoiner, который обеспечивает прозрачный SQL-доступ к гетерогенным источникам информации, таким как IBM DB2 Universal Database, IMS, VSAM, Oracle, Microsoft® SQL Server, Informix, Sybase и другие.

Среди других технологий управления контентом масштаба предприятия, предлагаемых IBM, необходимо отметить Content Manager, который обеспечивает инфраструктуру для хранения и обработки любых видов цифровой информации (HTML, XML, видео, аудио, изображения, текст и т.д.) в масштабах предприятия.

Использование DB2 Universal Database в сочетании с такими программными средствами обеспечивает эффективную реализацию корпоративных информационных систем, в том числе и гетерогенных.

Стратегическим направлением дальнейшего совершенствования этого подхода является развитие XML-технологий интеграции гетерогенных данных. Для реализации потенциала XML в этой области критически важным является наличие адекватного языка запросов.

В IBM cтратегию развития DB2 и родственных ей продуктов в течении многих лет определяет Дональд Чемберлин (Don Chamberlin), хорошо известный как один из соавторов языка SQL. Именно он является идеологом объектно-реляционной архитектуры, лежащей в основе современной DB2, и показательно, что именно он является одним из соавторов языка Quilt, разработанного в соответствии с требованиями W3C XML Query Working Group.

Quilt изначально позиционируется как язык запросов для гетерогенных источников информации, и позволяет унифицировать обработку XML и реляционных данных. Унаследовав лучшие черты известных языков запросов для XML, таких как XQL, Lorel, XML-QL, Yatl, (в разработке многих из них принимали участие D. Florescu и J.Robie), Quilt является языком функциональным, заимствовав многие идеи из OQL.

Основная конструкция Quilt, FOR-LET-WHERE-RETURN, синтаксически очень близка к SQL, однако позволяет представлять результаты запроса в виде XML документов, их фрагментов или коллекций. Результат одного запроса Quilt может быть последовательно обработан следующим запросом.

Обладая способностью выражать унифицированные запросы к слабо-структурированным и реляционным данным, Quilt может рассматриваться как перспективный язык запросов для обработки гетерогенной информации.

  1. DB2 Product Family http://www-4.ibm.com/software/data/db2/index.html
  2. D.Chamberlin, J.Robie, and D.Florescu. Quilt: An XML Query Language for Heterogeneous Data Sources. Lecture Notes in Computer Science, Springer-Verlag, 2000. http://www.almaden.ibm.com/cs/people/chamberlin/quiltilncs.pdf
  3. World Wide Web Consortium. XML Query Requirements. W3C Working Draft. http://www.w3.org/TR/xmlquery-req.