Статистические пакеты
Последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining. Но основное внимание в них уделяется все же классическим методикам - корреляционному, регрессионному, факторному анализу и другим.
Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистические пакеты являются слишком "тяжеловесными" для массового применения в финансах и бизнесе.
Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов, опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Это чрезвычайно важное обстоятельство следует обязательно учитывать при анализе многомерных данных.
|
|
В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (компания SPSS), STATGRAPHICS (компания Manugistics), STATISTICA для WINDOWS, STADIA и другие. Эти пакеты с успехом могут применять небольшие и средние предприятия, а большие многопрофильные компании могут интегрировать их в общую корпоративную сеть.
Это большой класс систем, архитектура которых имеет аналогию с построением нервной ткани из нейронов. В одной из наиболее распространенных архитектур - многослойном персептроне с обратным распространением ошибки - имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя.
На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ - реакция всей сети на введенные значения входных параметров.
Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо "натренировать" на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них (рис. 6.20). Тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.
|
|
Рис. 6.20. Схема самообучающейся информационной системы
Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки, хотя современные хранилища знаний относительно легко позволяют делать это. Другой существенный недостаток заключается в том, что даже натренированная нейронная сеть представляет собой черный ящик, "глотающий" начальные условия и выдающий прогноз. Знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком (известные попытки дать интерпретацию структуре настроенной нейросети выглядят пока неубедительно).
Примеры используемых нейросетевых систем - BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).
В отличие от нейронных сетей, где прогноз формируется без участия человека, экспертные системы включают одного или нескольких специалистов высокого класса в качестве элемента (рис. 6.21).
увеличить изображение
Рис. 6.21. Схема экспертной информационной подсистемы
Экспертная система имеет разветвленную сеть, позволяющую делать запросы и глубокий поиск в базах данных и хранилищах знаний. Если нейронные сети работают на принципе передачи информации от одних слоев нейронов к другим, причем изменения информации, происходящие во время передачи, обусловлены заранее не оговоренными эвристическими правилами, то в экспертных системах существует жесткий логический каркас - создатель заключения, который автоматически проводит линию рассуждения по заложенным в алгоритм правилам и использует параметры, вовлеченные в решение.
Ответ может быть известен заранее по результатам отзывов специалистов-экспертов; этот ответ сопоставляется с ответом системы, параметры изменяются, и проводится второй "прогон". В результате выдается экспертное заключение с вероятностной оценкой его надежности. Интерфейс допускает работу сразу нескольких пользователей.
Экспертные системы широко применяются в бизнесе, часто работают независимо и не включаются в корпоративные информационные сети. Как правило, они являются узко специализированными: транспортные, медицинские, банковские, торговые, юридические и т. д.
Рис. 6.22. Общая структура интеллектуальной ИС
Нейронные сети, аналитические и экспертные системы образуют обширный класс интеллектуальных систем. Структура такой информационной системы показана на рис. 6.22.