Алгоритм розв’язання задачі оптимального стохастичного керування

 

Процедура пошуку оптимальних позиційних стратегій є досить складною задачею. Одним з головних питань, вирішення якого дозволяє у значній мірі полегшити цю процедуру, є наступне: чи можна обмежитися пошуком оптимальних стратегій у класі стаціонарних або марковских стратегій? Якщо це можливо, то структура керування значно спрощується, і, крім того, зменшується об'єм оброблюваної інформації: не потрібно запам'ятовувати керування , …, , попередні стани , …,  і діставати залежність поточного керування  від усіх цих величин. У цьому випадку для розв’язання дискретних задач оптимального керування зі скінченним горизонтом найчастіше використовується алгоритм, заснований на методі динамічного програмування, запропонованого Беллманом. Суть методу полягає в наступному:

 

,                                             (9)

           (10)

 

де математичне сподівання береться за мірою . Формули (9) – (10) є стохастичним аналогом детермінованого алгоритму методу динамічного програмування.

Величина  – це оптимальні витрати, пов'язані з функціонуванням системи, за останні  кроків, за умови, що перед першим із цих кроків система перебувала в стані . Стратегія , кожний елемент якої  доставляє оптимальне значення (10) для всіх , , є оптимальною стратегією для кожного . Оптимальна функція витрат  даної задачі визначається на -му кроці і дорівнює .

Для розв’язання задач оптимального стохастичного керування з нескінченним горизонтом, як правило, застосовуються чисельні методи, які дозволяють на кожній ітерації одержувати наближення до оптимального керування і оптимальної функції витрат. У цьому випадку можна показати, що оптимальна функція витрат  задовольняє рівнянню Беллмана

 

.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: