Рассмотрим задачу синтеза оптимального управления системой
полагая, что измерению доступен некоторый вектор связанный с соотношением
Здесь по-прежнему — вектор состояния; — вектор управления; в i -й момент ; — вектор измерения (наблюдения) в тот же момент; , — случайные векторы, характеризующие возмущения, действующие на систему, и ошибки измерения соответственно. Предполагается, что статистические свойства векторов , полностью известны.
В качестве критерия оптимальности примем
Основная особенность задачи синтеза оптимального управления при неполной статистической информации заключается в следующем. Так как вектор фазовых координат не измеряется, то синтезируемое оптимальное управление в i-й момент времени должно в общем случае зависеть от всех прошлых и настоящих измерений , обозначаемых сокращенно через . Иными словами, оптимальная стратегия управления является некоторой последовательностью функции , ставящих в соответствие всем прошлым и текущим наблюдениям векторы управления из условия минимума критерия (6.3). Эта оптимальная стратегия может быть найдена с помощью достаточных условий оптимальности в форме метода динамического программирования. Основное рекуррентное соотношение при этом принимает вид
|
|
Здесь через обозначена функция будущих потерь, представляющая собой минимальное значение критерия (6.3), которое может быть достигнуто при оптимальном управлении системой (6.1) начиная с момента времени i по наблюдениям (6.2), полученным в моменты .
Граничным условием для функции , как и при управлении при полной информации, может служить равенство
Согласно рекуррентной процедуре синтез оптимальных управлений должен производиться в следующем порядке
Синтез сводится к вычислению на каждом шаге функции будущих потерь , раскрытию операции математического ожидания и оптимизации по правой части основного рекуррентного соотношения. Для раскрытия операции математического ожидания необходимо в свою очередь вычисление условных плотностей . В общем случае эти плотности вычислить очень трудно. Принципиальная трудность заключается в необходимости запоминания всех прошлых и настоящих измерений .
Задача значительно облегчается, если предположить существование некоторого вектора , который обычно называется вектором достаточных координат (статистик), являющегося функцией от и удовлетворяющего следующим условиям:
1) знание вектора достаточно для определения оптимального управления и функции будущих потерь . Это означает, что плотности типа могут быть представлены в виде ;
|
|
2) знание вектора в любой момент достаточно для определения собственной будущей эволюции, т. е. для моментов j>i. В этом случае основное рекуррентное соотношение может быть представлено в виде
с прежним граничным условием
Применение соотношения (6.4) упрощает решение задачи синтеза за счет того, что функция будущих потерь теперь зависит от вектора вполне определенной размерности для всех моментов, в то время как размерность совокупности увеличивается с возрастанием номера i. С введением понятия достаточных координат исходная задача синтеза оптимального управления при неполной информации может быть условно разделена на две: определение достаточных координат и определение оптимального управления как функции достаточных координат. Соответственно оптимальный, регулятор, получаемый в результате решения задачи, состоит и» двух блоков — блока обработки измерительной информации и блока оптимального управления. Строго говоря, синтез обоих блоков необходимо осуществлять совместно. Однако в некоторых случаях, например, для линейной системы с аддитивным возмущением к квадратичным критерием оптимальности оказывается справедливой так называемая теорема разделения, согласно которой задача, определения достаточных координат отделяется от задачи синтеза собственно оптимального управления. Эта теорема с успехом может быть использована для приближенного решения задачи в общем случае.