Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Функция Беллмана, вывод функционального уравнения Беллмана.



Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, предположим, что задача управления решена и найдено оптимальное управление U*(t) и соответствующая ему траектория движения объекта X(t). Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом:

Данная функция S(X0, t0), зависящая от начального состояния объекта X(t0)=X0 (зависимость значения критерия от конечного состояния, которое в задачах управления часто фиксировано, причем Xk=0 (задача стабилизации), не рассматривается) называется функцией Беллмана.

Выберем на оптимальной траектории две точки, соответствующие моментам t и t+Dt, где Dt – малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек t и t+Dt до конечной точки tk являются оптимальными. Обозначим через S(X(t), t) и S( X(t+Dt), t+Dt) минимальные значения функционала (2), соответствующие этим участкам

Между этими величинами существует связь

. (3)

Подчеркнем, что при составлении уравнения (3) непосредственно учитывался принцип оптимальности Беллмана.

Учитывая малость величины Dt, представим

где Q1(t) – малая с большим порядком малости, чем Dt.

Функцию X(t+Dt) разложим в ряд Тейлора в окрестности точки t и, учитывая малость величины Dt, разложение представим в виде

X(t+Dt)=X(t)+(dx/dt)* Dt+Q2(t), или

DX=X(t+Dt)-X(t)=(dx/dt)*Dt+Q2(t), (5)

где Q2(t) – совокупность последующих членов ряда Тейлора (векторные величины).

Далее предположим, что функция S(X, t) дифференцируема по своим аргументам. Это предположение ничем не обосновано, поскольку сама функция не известна. Если в последствии наше предположение не подтвердится, то все нижеследующие рассуждения несут только познавательный характер. Это обстоятельство вносит определенный элемент необоснованности в сущность непрерывного варианта метода динамического программирования в отличие от его дискретного аналога. Основываясь на предположении о дифференцируемости и учитывая представление (5), функцию разложим в ряд Тейлора

, (6)

где − вектор-столбец частных производных функции S по компонентам вектора X (градиент), вычисленных в точке (X(t), t), O3(t) – совокупность последующих членов ряда Тейлора.

Учитывая структуру приращения , подставим (4), (6) в (3):

. (7)

Здесь О4(t) – совокупность всех членов с порядком малости, большим, чем у .

Величина не зависит от управления U(t), так как представляет наименьшее значение функционала, полученное в результате подстановки в него оптимального управления, поэтому ее можно вынести из-под символа минимума и взаимно уничтожить с такой же величиной в левой части (7). Оставшееся выражение делим на и устремляем . В силу сделанных замечаний о порядке малости слагаемого О4(t) выполняется условие Производная также как и функция S, не зависит от управления и может быть вынесена за фигурные скобки. После проведения всех указанных операций соотношение (7) превращается в известное функциональное уравнение Беллмана

(8)

или в скалярной форме записи

. (9)

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных.


9. Функциональное уравнение Беллмана, техника определения оптимального управления в методе динамического программирования.

 

Функциональное уравнение Беллмана:

(8)

или в скалярной форме записи

. (9)

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. Техника определения оптимального управления их сводится к следующим процедурам

1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция X, S, t, т.е. в форме .

2. Найденное управление подставляется в уравнение (9):

(10)

Это уравнение, содержащее только одну неизвестную функцию S(X, t), называют уравнением Гамильтона-Якоби-Беллмана.

3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. Здесь необходимо подчеркнуть, что в настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана.

4. Функцию S[X(t), t] подставляют в выражение оптимального управления , что позволяет определить его как функцию состояния и времени, т.е. в форме обратной связи .

Таким образом, если удается реализовать изложенную последовательность процедур, то метод динамического программирования позволяет в принципе решить задачу синтеза оптимальной замкнутой системы управления.

 


10. Техника определения оптимального управления в методе динамического программирования, достоинства и недостатки динамического программирования.

Техника определения оптимального управления их сводится к следующим процедурам

(1)

1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция X, S, t, т.е. в форме .

2. Найденное управление подставляется в уравнение (1):

(2)

Это уравнение, содержащее только одну неизвестную функцию S(X, t), называют уравнением Гамильтона-Якоби-Беллмана.

3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. В настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана.

4. Функцию S[X(t), t] подставляют в выражение оптимального управления , что позволяет определить его как функцию состояния и времени, т.е. в форме обратной связи .

Таким образом, если удается реализовать изложенную последовательность процедур, то метод динамического программирования позволяет в принципе решить задачу синтеза оптимальной замкнутой системы управления.

Однако при применении изложенного метода необходимо иметь в виду следующее:

1. В заданном классе допустимых управлений не всегда существует такое, при котором достигается минимум в (1) ( называется допустимым, если при это управлении допустимо и функционал при нём конечен).

2. Функция Беллмана S[X, t] не всегда обладает той гладкостью, которая была использована при выводе уравнения (1).

3. Если функция S[X, t] удовлетворяет уравнению Беллмана, то отсюда не следует, что управление, при котором достигается минимум в уравнении (1), является оптимальным. В частности при этом управлении может, вообще говоря, не существовать решение уравнений движения (т.е. функционал качества будет не определён или бесконечно большим)

4. Решение уравнений Беллмана может оказаться не единственным. В этом случае требуется дополнительное исследование, позволяющее установить, какое из этих решений является функцией Беллмана исходной задачи оптимального управления.

Замечание. Требование непрерывной дифференцируемости функции S[X, t] является весьма ограничительным, оно не выполняется во многих задачах (например, в задачах о быстродействии при управлении двумя последовательно соединенными интеграторами. В определенной степени требуется лишь непрерывность скалярного произведения ( ) в любой момент времени t = , когда и разрывны.


ВОПРОСЫ ПО ТЕОРИИ АКОР


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-08-24; Просмотров: 1496; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.019 с.)
Главная | Случайная страница | Обратная связь