Рассмотрим применение метода динамического программирования для непрерывной задачи.
Предположим, что оптимальное управление найдено и ему соответствует траектория движения объекта . Выберем на оптимальной траектории две точки, соответствующие моментам времени и (рис. 5.4), где – малая величина.
Рисунок 5.4 – Оптимальная траектория движения объекта
Тогда, согласно принципу оптимальности, участки оптимальной траектории от до и от до будут оптимальными. Как и в случае дискретной задачи, обозначим минимальное значение функционала этих участков через и , соответственно:
; (5.15)
. (5.16)
Определим, насколько изменяется минимальное значение функционала при переходе от точки до . Для этого из (5.15) вычтем (5.16):
.
Откуда следует, что
. (5.17)
Учитывая, что мало, то подынтегральная функция на малом отрезке изменяется незначительно и её можно считать постоянной с какой-то погрешностью . Математически это можно записать следующим выражением:
, (5.18)
где – малая величина, более малая чем .
|
|
Теперь рассмотрим второе слагаемое в (5.17). Разложим функцию в ряд Тейлора с учётом того, что зависит как от , так и от времени :
, (5.19)
где - разложение в ряд Тейлора;
и – совокупность последующих членов ряда Тейлора.
Подставив (5.18) и (5.19) в (5.17), получим:
.
Сократим обе части на и поделим оставшееся выражение на .
. (5.20)
Проанализируем полученное уравнение (5.20). Так как , то им можно пренебречь по сравнению с другими слагаемыми. Производная , также как и функция не зависит от управления и может быть вынесена за фигурные скобки. Напомним, что согласно (2.23)
.
После выполнения всех указанных операций уравнение (5.20) перепишем следующим образом:
. (5.21)
Полученное уравнение (5.21) называется уравнением Беллмана в векторной форме.
В скалярной форме уравнение Беллмана имеет вид:
. (5.22)
Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. Методика определения оптимального управления с помощью уравнения Беллмана сводится к следующим процедурам.
1. Из условия минимума выражения в фигурных скобках (5.21) находится оптимальное управление как функция , , , т.е. в форме .
2. Найденное управление подставляется в выражение в фигурных скобках, что приведёт к новой форме уравнения, не содержащей управление :
. (5.23)
Это уравнение называется уравнением типа Гамильтона-Якоби.
3. При решении уравнения Гамильтона-Якоби (5.23) с учётом граничного условия определяется функция . Способы решения уравнения Гамильтона-Якоби в каждой задаче свои.
4. Определив функцию , подставляют её в выражение для оптимального управления , полученного в пункте 1.
|
|
В результате получаем выражение для оптимального управления как функцию состояния и времени . Это и будет окончательное решение задачи.
Полученное уравнение Беллмана (5.22) применимо к неавтономным (с обратной связью) системами, так как в нём присутствует явная зависимость от времени .
Для автономных систем, при отсутствии явной зависимости функции от времени , . Тогда уравнение Беллмана примет вид:
(5.24)
и методика вычислений упростится.