Поиск закономерностей (интеллектуальная добыча данных, или Data Mining) выступает одним из ключевых направлений развития технологий бизнес-анализа (Business Intelligence). За прошедшие десятилетия корпоративные хранилища накопили гигантские объемы данных в приложениях ERP, CRM, финансов и других областях. Возникает вопрос: как работает этот интеллектуальный капитал в компаниях? Используется ли он для принятия управленческих решений или просто лежит мертвым грузом вместо того, чтобы приносить прибыль. Технологии Data Mining, позволяющие выявлять скрытые закономерности в данных, - это перспективное средство "оживить" накопленные объемы данных и поставить их на службу компании.
Мало пользы от отдельной строки в таблице, говорящей, что в день А клиент Б приобрел товар В в магазине Г на сумму Д. Однако проанализировав миллионы подобных строк можно заметить, что товар В расходится в магазине Г лучше, чем в других торговых точках. Что клиент Б проявляет покупательскую активность в основном в дни А. Что товар В чаще всего продается совместно с товаром В1 и т.д. То есть превратить данные в знания, которые уже можно непосредственно использовать в бизнесе. Таким образом, Data Mining - это машинный анализ информации с целью отыскания в ней типовых образцов или стереотипных изменений, скрытых от нас по причине невозможности держать в голове такое количество данных и такое количество связей между ними.
Сервер баз данных Microsoft SQL Server 2005 представляет собой комплексную технологическую платформу для построения решений в области Data Mining. В его состав входят алгоритмы анализа временных рядов, деревьев решений, ассоциативных правил, Na?ve Bayes, кластерный анализ, нейронные сети и др., а также открытые интерфейсы для подключения собственных алгоритмов. Наряду со встроенными возможностями SQL Server 2005 по поддержке реляционных хранилищ, ETL, реляционного и многомерного OLAP, корпоративной отчетности и эффективной ценовой политикой это позволяет рассматривать его как доступный и мощный инструмент создания современных BI-приложений на предприятии.
В докладе дается краткий обзор архитектуры Data Mining в составе SQL Server 2005, языка DMX (Data Mining eXtensions to SQL) для описания моделей поиска закономерностей, расширения интерфейсов OLE DB на Data Mining и приводятся практические примеры построения прогнозных моделей с использованием встроенных алгоритмов.